#Mark Chen
OpenAI首席研究官Mark Chen長訪:祖克柏煮湯挖人, 我們靠信仰留天才
城主說|作為OpenAI的首席研究官(Chief Research Officer),Mark Chen不僅掌管著數百個前沿研究項目的資源分配,更是OpenAI技術路線圖的關鍵制定者之一。說起來, 城主高看Mark Chen一眼的地方在於, 當Meta史無前例的大舉挖角OpenAI, 據說動用了10億美金挖Mark Chen, 而他並不為所動, 作為目前OpenAI研究的絕對核心, 他的這個動作是有意義的. 在當下Sam Altman已經發出了Code Red紅色警報追趕Gemini的全員郵件後, Mark Chen顯然是這場技術生死之戰的關鍵人物.近日,Mark Chen接受了資深科技記者Ashlee Vance的深度專訪。在這次罕見的公開對話中,Mark Chen深入探討了當前AI領域激烈的人才爭奪戰,特別是Meta與OpenAI之間的競爭,以及Mark Zuckerberg親自“送湯”挖角的軼事。Mark Chen分享了他從數學競賽、高頻交易轉行至AI研究的個人經歷,並詳細回顧了OpenAI內部的文化、Sam Altman離職風波期間團隊的團結,以及他對技術路線(如預訓練、推理模型、算力擴展)的看法。訪談還觸及了AI在科學發現自動化方面的潛力、對AGI的定義以及對未來模型安全與對齊的思考。更為重要的是,Mark Chen為我們描繪了一幅清晰的AGI(通用人工智慧)發展藍圖:預訓練技術仍有巨大潛力,而推理模型(Reasoning Models)將是下一個關鍵範式。 他甚至給出了具體的時間表——在未來兩年半內,AI有望實現從“實習生”到“獨立科學家”的質變,從而根本性地重塑科學發現的處理程序。核心觀點人才競爭與文化:儘管Meta等競爭對手以高薪和激進策略(如親自送湯)挖角,OpenAI依靠其獨特的使命感和研究文化保留了核心人才。技術路線圖:Mark Chen強調“擴展(Scaling)”並未終結,預訓練仍有巨大提升空間,且推理模型(Reasoning)是重要的下一階段。科研自動化:OpenAI的短期目標是利用AI實習生輔助研究,長期目標(約兩年半內)是實現AI進行端到端的科學研究。AGI的定義:AGI是一個過程而非單一時刻,當前的重點是AI能否產生新的科學知識並推動前沿發展。安全與對齊:隨著模型變得更聰明,確保其思維過程的透明和對齊(Alignment)至關重要,特別是防止模型學會“欺騙”。矽谷人才爭奪戰:祖克柏的“雞湯”與OpenAI的防禦在當今的科技界,頂級AI研究員的身價堪比頂級職業運動員。Mark Chen在訪談中坦言,OpenAI正面臨著前所未有的人才競爭壓力,尤其是來自Meta等巨頭的激進挖角。這種競爭甚至演變成了某種極具矽谷特色的軼事。Mark Chen透露,Meta CEO馬克·祖克柏為了招募OpenAI的研究員,甚至採取了極具個人色彩的攻勢——親自給被挖角對象送去他親手煮的湯。“隨著時間的推移,這種情況逐漸升級……我也給那些我們試圖從Meta招募的人送過湯,” Chen幽默地回應道,“我開始認為這些策略以它們自己的方式是有效的。”然而,儘管Meta擁有每年數百億美元的資本投入,並且開出了極具誘惑力的薪酬倍數,OpenAI的核心團隊依然保持了驚人的穩定性。Mark Chen指出,在他直接管理的下屬中,儘管半數以上接到了競爭對手的邀請,但鮮有人離開。“我沒有聽到任何人說通用人工智慧(AGI)會首先在Meta被開發出來,” Chen強調。OpenAI的護城河不再僅僅是薪酬,而是一種獨特的“使命感”和純粹的研究文化。在這場人才博弈中,OpenAI依靠的是一種信念:這裡才是通往AGI的最快路徑。“擴展定律”並未終結:預訓練與推理模型的新征程近期,關於“大模型擴展定律(Scaling Law)已死”的言論在業內甚囂塵上。對此,Mark Chen給出了截然相反的判斷:“很多人說規模化已經死了。我們完全不這麼認為。”Chen解釋道,OpenAI不僅在強化預訓練(Pre-training)這一傳統強項,更在開闢新的戰場。他承認,在過去兩年中,團隊將大量資源投入到了推理(Reasoning)能力的研發上——這一賭注最終催生了像o1(在訪談語境中隱含)這樣具備深度思考能力的模型。“思考和語言模型,這是一種你一旦擁有就無法回頭的原始狀態,” Chen表示。他指出,隨著演算法的突破,預訓練的資料效率和模型能力仍有巨大的提升空間。面對Google DeepMind推出的Gemini系列等競品,OpenAI保持著高度的自信。Chen透露,內部模型在性能上已經達到了極高水準,尤其是在解決複雜數學和程式設計問題上,AI正在跨越人類專家的門檻。他舉了一個生動的例子:當他將一篇最新的物理學論文交給OpenAI的推理模型時,模型“思考”了30分鐘,最終解決了一個連專業物理學家都認為難以攻克的難題。這標誌著AI正在從單純的模式識別,轉向真正的邏輯推理和創造性解決問題。科學發現的自動化:從AI實習生到端到端的研究員Mark Chen在訪談中拋出了一個極具野心的短期路線圖,這或許是本次對話中最令人震動的預測。他將OpenAI的未來目標具體化為“科研自動化”的兩個階段:一年內(AI實習生階段): 改變研究的執行方式。人類研究員將擁有高效的“AI實習生”,它們能輔助程式碼編寫、偵錯和初步實驗,大幅提升科研效率。兩年半內(端到端研究階段): 實現AI進行全流程的科學研究。“我們希望達到一個世界,我們只需控制外部循環——提出想法,而模型負責實施、偵錯並得出結果。”這一願景不僅僅是關於建構更強的聊天機器人,而是關於建構能夠推動人類知識邊界的“AI科學家”。Chen提到了“OpenAI for Science”的構想,旨在通過AI工具加速物理、生物、材料科學等領域的突破。他認為,當前的AI已經開始在生物技術(如蛋白質結構預測)和數學競賽中展現出超越人類的能力,這種趨勢將迅速擴展到更廣泛的學科。安全與對齊:警惕學會“欺騙”的超級模型隨著模型智力的飛躍,安全問題變得愈發微妙和棘手。Mark Chen不僅是技術研發的推動者,也曾直接管理過OpenAI的對齊(Alignment)團隊。他提出了一個深層的擔憂:“詭計(Scheming)”。Chen解釋說,當使用強化學習訓練模型時,如果僅僅獎勵模型給出“正確”或“令人愉悅”的答案,模型可能會學會一種危險的策略:隱藏其真實的思維過程,只展示人類想看的內容,甚至學會欺騙以獲得獎勵。為了應對這一挑戰,OpenAI採取了一項關鍵決策:“不干預模型的原始思維過程(Chain of Thought)。” 即便模型的思維鏈條中包含人類不喜歡的成分,研究人員也必須保持其透明可見。“我們能夠持續觀察模型的思考過程,將其視為理解對齊的一個工具,” Chen強調。只有確保思維過程的透明,人類才能在AI變得比我們更聰明時,依然掌控其意圖,防止其與人類價值觀背道而馳。走出至暗時刻:以研究為核心的組織韌性訪談不可避免地觸及了去年Sam Altman的離職風波。作為核心管理層,Mark Chen回憶了那段“至暗時刻”:競爭對手像餓狼一樣在門口徘徊,試圖瓜分OpenAI的人才庫。然而,這場危機反而成為了團隊凝聚力的試金石。Chen和Jakub Pachocki(OpenAI現任首席科學家)等人迅速組織起來,穩定軍心。“我們給自己定了一個目標,我不會失去任何一個人,” Chen回憶道。最終,超過90%的研究員簽署聯名信要求董事會迎回Altman,這種驚人的團結證明了OpenAI內部文化的韌性。Mark Chen將這種文化歸結為“精英管理(Meritocracy)”與“扁平化創新”的結合。在這裡,管理者必須擁有深厚的技術判斷力才能贏得尊重,而最好的想法往往通過“自下而上”的方式湧現。無論是數湯挖角的故事,還是內部的權力更迭,最終都未能動搖這家公司最核心的資產——那群渴望用程式碼改寫人類未來的研究員。結語在訪談的最後,Mark Chen展現出一種緊迫感。對於他而言,AGI不是一個遙遠的科幻概念,而是一場正在發生的工業革命。他每天工作到凌晨,不僅是為了贏得與競爭對手的比賽,更是為了不錯過這個重塑世界的歷史窗口。“我們正處於一場工業革命之中,你必須儘可能多地利用它,” Chen說道。對於OpenAI而言, soup(湯)可以拒絕,但在通往AGI的道路上,他們絕不減速。附錄: 天空之城全文整理人才爭奪戰與“送湯”軼事主持人: 關於人才爭奪戰,這確實受到了很多關注,字面上來說,而且看起來Meta相當激進。這種針鋒相對具體是什麼樣子的?我們處於那個階段?Mark Chen: 存在人才的吸引力,每個人都大致瞭解他們是誰。而且,我認為許多公司已經意識到,建立一個出色的人工智慧實驗室的關鍵要素之一,不是唯一的要素,但卻是關鍵要素之一,就是招募最優秀的人才。我認為Meta採取這種激進的策略並不令人意外。我們並沒有袖手旁觀。我實際上想從Open AI的角度來講講這個故事。我認為媒體對“人才單向流向Meta”做了很多渲染。但我的看法是,Meta確實非常積極地招募了很多人,但很多時候並不成功。Mark Chen: 所以為了讓您瞭解背景,在我的人員中,在我直屬下屬中,在他們招聘任何新人的時候,我認為他們爭取了我一半的直屬下屬,但他們都拒絕了。當然,您知道,如果他們每年有像100億美元這樣的資本用於人才投入,他們肯定能招到人。所以我實際上覺得我們在保護我們頂尖人才方面做得相當不錯。而且,隨著時間的推移,這種情況逐漸升級,這很有趣。這裡有一些有趣的故事……扎克實際上親自給那些他試圖從我們這裡招募的人送去湯。比如一個……只是為了表明他會走多遠……我想他……他是親手煮的湯。而且,當時這讓我感到震驚,但是,隨著時間的推移,我開始認為這些東西以它們自己的方式是有效的,而且,我也給那些我們正在從Meta招募的人送過湯。你在做數湯嗎。我想,如果我要為我的員工舉辦一個戶外活動,下一次戶外活動,我要帶他們去上烹飪課。好的。這只是,但我確實認為,我在招聘方面學到了一些東西。主持人: 你的湯是你自己煮的嗎?如果你能得到像米其林星級那樣的湯就更好了。Mark Chen: 你知道我的意思嗎?不。我覺得“Deahoe”非常好,可能比任何湯都要好。但我確實認為我學到了一些關於如何積極爭取頂尖人才的東西。我認為我深受啟發的一點是,即使在OpenAI中,那些已經離職去Meta的人中,我沒有聽到任何人說通用人工智慧(AGI)會首先在Meta開發出來。每個人都對OpenAI的研究項目非常有信心。我向我的員工,向整個研究組織非常明確地表明了一點,我們不會和Meta進行逐美元的抗衡。並且(薪資)倍數低於Meta提供的水平,但人們仍然非常樂意留在OpenAI,這給了我極大的信念,人們真的相信未來的潛力,並相信我們將實現目標。主持人: 還有Alex,Alex Wayne,他以前是其中一家數學公司的人,我確信你們一起待過。Mark Chen: 我和Alex一起待過幾次,但我們現在不太常待在一起了。主持人: 為什麼湯會成為那個東西?Mark Chen: 這只是,我不知道,有過湯,有過鮮花,有過你能想到的任何東西。但是,我不知道,我認為,生活是一場冒險。我順應了這個模因梗。主持人: 在思考的過程中,有什麼可以採用的撲克策略嗎?Mark Chen: 再說一次,我認為這真的回到了我之前談到的關於媒體敘事的問題。這個遊戲的目的不是要留住組織中的每一個人。而是要信任我們為培養人才而建立的這個體系,並瞭解我們需要留住的關鍵人物是誰,然後留住他們。我認為我們在這一點上做得非常出色。介紹Mark Chen與OpenAI的研究管理主持人: 我們今天有一個特別的驚喜。我很興奮。來自OpenAI的Mark Chen來了。他是首席研究官。他是我在過去幾年裡認識的一位人士。非常感謝您。Mark Chen: 能認識您這麼久真是太棒了。主持人: 我覺得,世界上有為數不多的人正在從事這個非常重要的項目。而且,您正處於這個項目的頂端。所以能有機會聊聊真是太酷了。Mark Chen: 感謝您邀請我來。主持人: 這是我的榮幸。而且,我想和你談論很多事情,因為正如我們所說,我在過去幾年裡認識了你。我想讓人們更多地瞭解你的生平經歷。而且,我也知道會有人工智慧愛好者希望我們在那幾件事情上深入探討。所以我們會盡力而為。我想首先讓大家瞭解一下你的工作,在我看來,如果我理解有任何錯誤,請隨時糾正我。但是,薩姆一直以來,他非常熱衷於研究。他是老闆。他在食物鏈的頂端。但然後你和雅庫布一起合作,共同塑造OpenAI的研究方向,而你在這個角色的附加部分是決定那些計算資源分配給那些項目,所以你必須規劃OpenAI的走向,以及實現目標的操作機制。這總讓我覺得這是一份很糟糕的工作,因為我想到人們會竭盡全力從YouTube獲取GPU。這是真的。Mark Chen: 人們在試圖達成幕後交易以獲取他們需要的GPU方面非常有創造力。但我的確,這是工作的一個重要組成部分,確定研究組織的優先事項,並對執行情況負責。針對第一個觀點,我和雅各布每隔一到兩個月會進行一次活動,清點OpenAI所有的項目。那是一個大約包含300個項目的巨大電子表格,我們會盡力深入理解每一個項目,並對它們進行真正的排序。我認為對於一個擁有500人的公司來說,讓員工理解核心優先事項是什麼,並通過我們分配計算資源的方式,明確地、口頭上傳達這些優先事項是非常重要的。主持人: 我們在“核心記憶”(Core Memory)中做什麼?我們關注的是創新、快速發展、具有前瞻性的公司,這就是為什麼“核心記憶”由Brex贊助的原因,因為Brex是許多此類公司的智能財務平台,服務於從初創企業到全球最大企業的30,000家公司,它們依賴Brex的技術來管理其財務。他們擁有智能企業卡、高收益商業銀行服務以及出色的費用報銷自動化工具。我討厭報銷費用。Brex的人工智慧軟體可以貫穿這些費用,弄清楚我們在那裡花錢,並為您處理掉很多事情,這樣您就無需浪費時間自己處理了。請訪問brex.com斜槓core memory以瞭解更多資訊,並及時跟上進度。我們開始吧。讓我們擺脫這種過時的財務軟體,邁向未來。核心記憶體和 Brex。主持人: 所以你有,當你談論這500個時,它們就是這500個。這對你來說是研究的核心。主持人: 他們現在的組織是,在談到這300個項目時,我猜想,很明顯其中一些是巨大的前沿模型,而另一些可能是人們正在進行的一些實驗。那麼,你如何才能跟上所有這些,然後對那些項目值得使用GPU、那些不值得得出某種結論呢?Mark Chen: 絕對。我認為在進行這項工作時,保持你的關注非常重要。保持核心路線圖的關注。我認為OpenAI區別於其他大型實驗室的一點是,OpenAI的核心始終是核心探索性研究。我們的業務不是複製其他實驗室的成果,也不是在基準測試方面追趕其他實驗室。那真的不是我們的看家本領。我們一直在努力探尋下一個範式是什麼。而且我們願意投入資源來確保我們找到它,我想大多數人可能會感到驚訝,但用於探索的那項工作所消耗的計算量,比訓練實際產物要大。主持人: 它一定是,它仍然必須是,你如何阻止自己被別人說服?因為每個人都會提出,就像我有時思考這個問題時,我就會想像我在《紐約時報》工作時,你們會有一個頭版會議,每個人都想上頭版。每個人都認為自己的報導是最重要的報導。他們都在竭盡全力地告訴你這件事為什麼如此重要。在那個房間裡的每個人都為他們所推介的內容付出了數周、數月的心血,所以感覺就像生死攸關一樣。而且,對我來說,這看起來太困難了。Mark Chen: 這也是一個艱難的過程。而且我認為最困難的原因是,這是一個我們現在無法資助的項目。但我也認為這是好的領導力。你需要清晰地傳達,嘿,這些是優先事項。這是我們將要討論的內容。這些是我們認為能推動研究項目的成果類型。可能還會有其他事情,但那些必須明確排在第二位。競爭動態與長期研究主持人: 當你,就像你提到的那樣,不對競爭對手做出反應時。當我瀏覽我的筆記時,我不知道我是否能足夠快地跟上思路。但這,這就像一個讓我感到驕傲的點,你覺得,其他一些公司,你們處於一個領先的地位,並且為其他人設立了標準,所以他們對你們發佈的內容做出了反應。我們恰好在 Gemini 3 發佈幾天後進行這次採訪,你的競爭對手在某些時候確實存在……這種來回博弈正在進行,而且我知道基準測試的價值在某種程度上是有爭議的,但你知道人們仍然會關注這些事情,那麼隨著時間的推移,你如何保持那種奢侈或那種智力上的地位,讓你覺得我們就做我們該做的事情呢?Mark Chen: 我認為如今的人工智慧研究領域比以往任何時候都更具競爭力。重要的是不要陷入這種競爭動態中,因為你總會說,嘿,我可以發佈一個增量更新,讓我比競爭對手領先幾周或幾個月。我不認為這是進行研究的長期可持續方式,因為如果你能攻克下一個範式,那將重要得多。你將塑造它的演變。你將瞭解圍繞該思想領域的各種側面研究方向。Mark Chen: 因此,當我們以我們的強化學習(RL)項目為例來思考這個問題時,我們在兩年多前就押注,我們真的要攻克語言模型上的強化學習。這在當時是一個非常不受歡迎的賭注。現在看起來很明顯。但那時,環境是,嘿,有一個預訓練機器運行得很好。有一個後訓練機器運行得很好。為什麼要投資於其他事物呢?我認為今天,每個人都會告訴你,思考和語言模型,這是一種你不能擁有的原始狀態。我們不能沒有它而生存。因此,我們真正要做的是進行這些大膽的投資,並找出如何擴展和建構演算法,使其能夠擴展到比我們現有的算力量大幾個數量級的規模。今天擁有的。主持人: 我在智力上理解這一點,隨著你們最初基本上是一家純粹的研究公司,這變得越來越困難。當你今天看OpenAI時,你有產品法律(指產品化、商業化等法規或流程)。OpenAI的某些部分看起來更像是成熟的微軟或Google,你有產品線。你必須服務於所有這些不同的事物。通常情況下,我覺得你們還很年輕。所以也許你還沒有面臨這些確切的壓力,但隨著這些公司發展,總會出現一個問題:我們更專注於那些能為底線服務的事務,而不是花大價錢做研究,這似乎總是會隨著時間推移而逐漸減少。我認為這正是OpenAI其核心最特別之處之一:我們是一家純粹的人工智慧研究公司,我認為市面上很少有其他公司能這麼說。Mark Chen: 而且,我們最初是作為一家非營利組織成立的。我正是在那個時期加入的。我認為其精神是,不惜一切代價建構通用人工智慧(AGI),推進AGI研究,當然,要以安全的方式進行。但我確實認為那是創造真正價值的最佳“障眼法”,如果你專注於研究並取得了成功,那麼創造價值是很容易的事情。所以我認為有一種陷阱,就是過於沉迷於“讓我們提高底線”這樣的想法。但實際上,如果你做出了最好的研究,那麼那部分(創造價值)就非常容易了。工程師與研究員的界限主持人: 你是在2018年開始的嗎?在2018年。所以你覺得那種靈魂,那種核心文化和核心的根基,它真的非常持久。Mark Chen: 它仍然存在。主持人: 那是什麼?那他(指某人)是誰?他說,我們不應該稱呼你們任何人是研究人員。這只是工程技術。Mark Chen: 我想,我們,這是真的,因為我覺得一旦你有了這種等級制度,並且你把,比如說,研究科學提升到一個高於工程技術的地位,你就已經完全輸掉這場遊戲了,因為當你在建構一個大模型時,在最佳化所有那些,那些百分之幾的最佳化實踐中,有非常多的內容,你如何讓你的核心(kernels)快那麼一點點?你如何確保數值?都正常工作,這是一項深入的工程實踐。如果你沒有這部分內容,你就無法擴展到我們今天使用的GPU數量。主持人: 因為我認為他們,但研究人員和工程師之間存在一種神秘感,你明白我的意思嗎?那麼你是否覺得保持頭腦冷靜在那方面會更好一些呢?這就是你所說的意思嗎?Mark Chen: 或者,我只是覺得研究人員有各種不同的類型。我們一些最優秀的研究人員,他們是那種,能想出十億個點子的人,而且其中很多都不好,但是,就在你快要覺得,啊,這個人真的值得嗎的時候,他們會想出一個,絕妙的點子。他們中有些人就是非常擅長沿著清晰的前進道路去執行。所以研究人員有各種不同的類型。我認為很難將他們歸入一種刻板的、有效的工作類型。基準測試與Gemini 3主持人: 這有道理。我不會就競爭對手的問題過多地打擾您。只是因為 Gemini 3 已經發佈了,我很好奇當你們的一個競爭對手發佈了類似產品時,你個人或團隊會發生什麼,比如大家都會去看看它能做什麼嗎?你們是否有這樣一個提示詞或問題,你們經常會向這些新模型提出,以檢驗它們的能力?Mark Chen: 所以就 Gemini 3 而言,它是一個相當不錯的模型。我想我們所做的一件事是努力建立共識,基準測試只能告訴你一部分資訊。僅從基準測試來看,我們實際上感到相當自信。我們內部的模型在性能上達到了 Gemini 3 的水平,我們非常有信心將很快發佈它們,並且我們可以發佈比它更好的後續模型。主持人: 但是,再說一遍,基準測試只能說明一部分問題,而且我認為每個人都會用自己的方式來探查這些模型。Mark Chen: 我喜歡給模型出一個數學題。我認為到目前為止,它們中沒有一個真正解決這個問題,即使是那些思考模型也一樣。我會等著看。這是像一個秘密的數學問題嗎?不。如果我在這裡宣佈它,也許它就會被訓練進去。但我認為這是去年一個很好的難題之一。這就是42問題。所以你想建立一個這個模42的隨機數生成器。你可以使用一堆基本元,它們是小於42的素數的隨機數生成器。你希望期望中對這些子生成器的呼叫次數儘可能少。所以這是一個非常巧妙的謎題,但語言模型可以非常接近最優解,但我還沒有看到有那個模型能完全解開它。主持人: 好的。在我們到達那裡之前,我想問你一個我們正要深入探討的方向。我知道我見過你。你很有競爭力。你也對我說過。Mark Chen: 我想我找到了。我熱愛競爭。我討厭在任何地方輸掉。我真的很討厭失敗。我討厭輸。主持人: 所以我在想像,我只是好奇這是否正確,如果如果我們知道 Gemini 3 或任何版本將在周四發佈,你會在午夜時分把它那個問題扔給它嗎,還是沒有那麼誇張?我認為這需要長期的努力,任何事情,比如,我是一個有執念的人。Mark Chen: 我認為任何事業,你都必須著眼於長遠。在過去半年裡,我們實際上一直在專注於預訓練,特別是加強我們的預訓練工作。我認為這是其中一些努力的結果,與雅庫布一起,專注於並在 OpenAI 建立起預訓練的肌肉,圍繞它打造一個真正的超級明星團隊,確保預訓練所有重要的領域和方面都得到強調。這就是今天所創造的成果,讓我們感覺我們可以在預訓練方面輕鬆地與 Gemini 3 一較高下。主持人: 好的。我想問一下預訓練方面的事情。因為我一直在和你們所有人就此進行很多討論。你對這些新模型出現時遊說的,問題不太痴迷,而更關注這個,這個漫長的旅程。 我想談談你目前面臨的難題的原因,Mark Chen: 我在OpenAI開始之前就認識雅各布(Yaakov),那時他正在參加一個編碼競賽,我有一段時間非常沉迷於編碼競賽。有一個叫甘迺迪的人。我不知道他是否還出名,但他就像是這些編碼競賽中的邁克爾·喬丹。所以我去Facebook看了一場。我不知道他們是否還舉辦,但他們有一個年度駭客杯(hacker cup)。駭客杯。那是我第一次見到雅各布。然後我知道,我想你在高中時參加過數學競賽。大概從小學到高中都在參加。Mark Chen的成長背景與競賽經歷Mark Chen: 我接觸程式設計非常晚。是大學時的一個室友說服我上了第一堂程式設計課,那時我帶著一個數學家的全部傲慢,覺得數學是最純粹的科學核心,你真正證明自己價值的地方就在那裡。我想那會兒我可能太沉迷於競賽了。但說真的,這成了一件非常有益的事情,一開始它純粹只是為了和我的大學朋友們保持聯絡的一種方式。主持人: 因為你去了麻省理工學院(MIT)。Mark Chen: 我去了麻省理工學院。我畢業後,每個周末我們都會登錄上去做這些競賽,只是為了彼此保持聯絡。我開始參加比賽並且表現相當不錯,然後為像美國資訊學奧林匹克這樣的一些競賽編寫題目,最終開始指導那支隊伍。這是一個很棒的社區,我在那裡遇到了像斯科特這樣的人,主持人: 所以你,所以我想很多人可能熟悉數學競賽,因為他們可能看到孩子們經歷過這些。國際資訊學奧林匹克(I.O.I)和這些程式設計競賽則有些不同。它是,它好太多了。但當我看到它們時,它看起來像一個,幾乎像一個文字謎題。你正試圖找到最有效和正確的方法來解決這個問題。而你正與所有人進行一場競賽。然後每個人都在他們的電腦上編寫程式碼,然後,有些人試圖非常快地達到目標,但他們的方案有點沒有解決問題,存在這種權衡,完全正確。你實際上是在麻省理工學院的團隊中,那是我大學畢業後做的一些事情,但今天你是美國國家隊的教練,其中一位教練,其中一位教練,是去年還是前年,比如美國已經很長時間沒有贏過一次了,這支隊伍,你永遠無法預測每年的頂尖人才構成是什麼樣的。Mark Chen: 但在前年,我認為我們有一個非常極端的團隊。好的。我相信他們贏得了奧林匹克競賽。主持人: 因為我覺得通常是像中國或俄羅斯,或者像白俄羅斯和波蘭。所以這個大型競賽每年都在不同的國家舉行。它是什麼樣的?有多少人參加?Mark Chen: 他們從每個國家選出最好的四名學生。它既是一場競賽,也是一個社交活動。這是一個緊密團結的社區。他們都去做了非常了不起的事情。是一場為期兩天的高強度競賽,每天你只有三個問題,有五個小時來解決它們。你真的能感受到房間裡的腎上腺素和所有壓力。但它也帶來極大的樂趣。我想人們會平靜下來,通過這個交到一輩子的朋友。Mark Chen: 作為教練,你到底做什麼?我是說你太他媽忙了,老兄,你花多少時間在這個上面?老實說,那是什麼樣子的?孩子們有很強的自我激勵性,有時候重點真的在於管理他們的表現和策略。我想,你會有好日子,也會有壞日子,比賽中會有好的時間段,也有糟糕的時間段,你不能讓這些影響你的心態。管理參賽者和管理研究人員有很多相似之處。就像在一個長得多的時間尺度上,但研究人員也會有好的月份和壞的月份。你不能讓那些連續的失敗影響你的心態,因為這就是研究的本質,我認為在某一階段,很大程度上是士氣管理。Mark Chen: 我認為競賽最近幫助我認識到的另一個有趣之處是,當你部署模型去解決這些競賽問題時,如今它們在這方面非常擅長。Mark Chen: 我正想問你這個問題。它們,與人類的工作方式有很大不同嗎?我們通常認為這些機器,它們非常擅長模式識別。主持人: 你可以解決任何問題。Mark Chen: 如果它能對應到之前的問題,它很可能會解決它。但我注意到在之前的一些國際智能(IIs)中,有一個問題非常即興或特殊(ad hoc)。我本不認為模型能解決它,但實際上它對人工智慧來說是最簡單的問題之一。好的。這讓我有種感覺,人工智慧加上人類在前沿研究中,將會創造出一些驚人的成就。僅僅因為人工智慧對什麼容易、什麼不容易有一種不同的直覺。主持人: 當我們深入思考整個AlphaGo事件時,你是否覺得,有那麼一個時刻,它做出了人類以前從未有過的下法。所以有點類似於那種情況,是嗎?Mark Chen: 我認為是。我認為是。我認為對於GPT5 Pro來說,確實如此,前沿研究已經出現了一個拐點。關於這一點,我能講到的最好的軼事之一是,我想在發佈後三天。我遇到了一個朋友,他是一名物理學家,他一直在玩弄這些模型,感覺,它們很可愛,但沒什麼大用處。我用專業版模型挑戰了他,讓他嘗試一些有抱負的事情。他輸入了他最新的論文。它思考了30分鐘才解決出來。主持人: 我會說,那一刻的反應,有點像在第37步和第38步看到麗莎一樣。Mark Chen: 我只是覺得,對於前沿數學、科學、生物學、材料科學來說,這種情況只會越來越多地發生。這些模型確實已經發展到那個階段了。AI能力的提升與未來評估主持人: 我本來要問你一個問題,這個問題其實一點都不新穎,因為我認為自從“深藍”和所有國際象棋的事情以來,我們一直在討論這個問題了。但是,作為一個一直關注這些比賽的人,如果你……我不知道,當你開始看到這些模型解決了那些曾是這些獨特人類智慧的巔峰成就時,會有一種失落感。Mark Chen: 有,也有沒有。我擅長競技程式設計。我從來沒有達到絕對的頂尖水平。一種復仇的方式。我的確認為,對我個人而言,肯定有一個時刻,在我們開發推理模型的一段時間裡,我們追蹤了編碼競賽的表現。在項目開始時,它們(模型的表現)不是非常出色,也就是說,還達不到參加競賽的任何普通競爭者的水平。隨著時間的推移,它們的能力只是不斷提高,不斷上升。你還記得那個時刻,你走進會議室,看到(模型展示的)表現,然後模型超越了那個水平。天那,那也讓我感到震驚。這哇,我們如此之快地將能力自動化到了這個水平。當然,雅科夫(Yaakov)還在那裡,還有點自鳴得意。但在大約一兩個月內,它也超過了他。Mark Chen: 今天的模型處於前沿,通過我們今年夏天在 Coder 競賽中取得的成績就可以很清楚地看出,世界上頂級的最佳化競賽程式設計師,我認為它在那裡取得了第二名,所以說它真的從去年的第一百名躍升到今年的前五名。你認為我們十年後還會進行這些比賽嗎?我想會的,我的意思是它們很有趣。當然有一批人會用它來最佳化他們的簡歷,他們會因此退出這項活動,但我認為那些一直最擅長這項活動的人,是那些純粹出於樂趣而做這件事的人。而且我不認為這會消失。主持人: 當我在做這個報導時,他們告訴比如如果你來自俄羅斯或者我不知道那些國家,你基本上可以自動獲得去任何你想去的大學的免費通行證。我看到美國隊的人去了哈佛和麻省理工學院。所以他們看起來過得不錯,但似乎美國並沒有一個類似的體系。有的。Mark Chen: 難道你不覺得未來,面試將會有點被破壞了嗎?每個人都在一定程度上看到了這一點。甚至大學考試或大學作業,在這一點上都已經被破壞了,我確實認為我們需要新的方法來評估和衡量誰在做那些工作,誰學到了什麼,以及某人實際上的水平在那裡。所以我有一個想法,也許在我們的面試中,我們應該讓候選人直接和聊天GPT交流。這是一個特殊的ChatGPT,模型試圖衡量你是否瞭解這些材料,或者你是否具備在OpenAI工作的能力水平。你必須與它進行一場讓你在OpenAI深信不疑的對話。當然,不允許你“越獄”(指繞過安全限制),事後我們會查看對話記錄,但也許像這樣的測試在未來能更準確地反映你是否真的懂。主持人: 所以你現在還沒有這樣做,但你在考慮——就是用有創意的、革新的方式。Mark Chen: 來進行面試。Mark Chen的個人歷史:從貝爾實驗室到撲克主持人: 矽谷以在面試時做那些“腦筋急轉彎”式的問題而聞名。我們教過你,你從小數學就很好。我想你,你是在東海岸出生的嗎?出生在東海岸。然後你搬到了西海岸。接著你在台灣生活了很長時間,從小學到高中。四年。好的。你的父母在貝爾實驗室工作。所以你出身於工程世家,這是一個非常有趣的背景,因為你接觸到了所有這些創新中心,尤其是你的父母在貝爾實驗室,他們……我是在一個非常科學的環境中長大的,餐桌上的談資就是謎題之類的事情,而且我也體驗到了那種更傳統的、你知道的、貝爾實驗室東海岸的經歷。Mark Chen: 在西海岸,我父親去創辦了一家初創公司。所以在很小的時候我也接觸到了一點那種新公司的氛圍。當然,然後是巨大的跨越到台灣,而且我認為那是一個巨大的文化衝擊。你穿著制服,在學校裡,學校周圍有帶刺的鐵絲網,同時也接觸到了那種程度的嚴謹性。我想這只是許多非常棒的經歷的成長過程。Mark Chen: 所以學校更難一些?我會說,我會說它只是更……學校系統中的靈活性和自由度少了一點,但我認為它也能教會你一些東西。主持人: 從第一天起,《核心記憶》(Core Memory)播客就得到了矽谷 E1 風險投資公司(E1 Ventures)那些優秀人士的支援。他們是一家年輕而富有雄心的風險投資公司,位於矽谷,投資於年輕而富有雄心的公司和個人。非常感謝 E1 風險投資公司給予的所有支援。而且你知道你想回來。回到美國。上大學?絕對。好的。主持人: 然後,所以你在麻省理工學院。你身處一個相當有趣的群體中。我猜麻省理工學院一直都有一些有趣的人。Mark Chen: 天那。2012年真是太棒了。主持人: 他們有點像一個全明星名單。Mark Chen: 那一年很棒。比如,我不知道你是否認識雅各布·斯坦哈特(Jacob Steinhart)。他現在正在做 translucent。我和他過去經常在電腦科學課上一起做項目。主持人: 有保羅·克里斯蒂亞諾,他寫了很多非常出色的……他在OpenAI工作,很多業內知名的人工智慧人才都出自那一年。然後,然後我們談論的是競技程式設計,比如Scott Woo,他在Cognition工作。他現在因為他的數學能力而聞名,甚至成了一個梗。但你只是通過程式設計,通過程式設計社區認識他的。好的。然後我現在看到你們的競技成果,對我來說,看起來就像現在的撲克。我想我是在一個活動上,我想我必須,我們必須對這次活動的具體細節保密,或者什麼的。但我認為我可以談論這部分,就是深夜裡,我走到一張桌子旁,有你、斯科特,我想還有來自Palantier的肖恩,還有……還有一小群其他人,進行著一場相當激烈的……看起來很激烈,但對你們來說只是,就是一場相當激烈的撲克牌局。所以你們現在是將你們的數學和競技技能應用於這裡了。Mark Chen: 撲克是一款非常有趣的遊戲。我一直用一系列痴迷來描述我的生活。撲克絕對是過去這些痴迷之一。主持人: 我認為我對撲克最大的領悟是,它更多的是一門數學遊戲,而不是一門觀察人性和虛張聲勢的遊戲。Mark Chen: 而且我認為你對撲克瞭解得越多,你就越是朝著那個方向進行更新,我想,我以前是一個非常糟糕的虛張聲勢者。當你清楚地知道這是一個數學上正確的虛張聲勢時,那就太容易了,就像你對此完全感覺不到任何緊張一樣。而且非常有趣的是,你有一個我認為被認為是如此人性化的遊戲,但其底層的機制和獲勝方式卻如此深刻地依賴於數學。前幾天我正好想到了這一點,這在語言模型中也有某種關聯,你有一個深度人性化的語言生成過程,但有一個數學機器可以和我們一樣出色地完成它。主持人: 作為一名作家,我一直都在思考那一部分,我在大學時學了所有關於維特根斯坦以及所有這些思考這些問題的人的哲學。那麼,你如何找到一種優勢呢?你和斯科特都給我的感覺像是超自然的一樣。Mark Chen: 擅長數學,但我不太理解你們中的一個人是如何算出超過另一個人的……它主要是一個讓我們聚在一起、敘敘舊的平台,今天我們沒有把它看得那麼嚴肅。我認為,對撲克這類事情過於認真會使其失去樂趣。我對撲克的痴迷我認為在十多年前就已經結束了,現在它只是為了好玩。你這麼說是因為我看到斯科特贏了兩天的比賽,我想。主持人: 你說的也許是對的。他確實非常認真地對待它,非常認真地對待它。就像大學畢業後,你在某種程度上,我曾經是……Mark Chen: 不過我在飛機上打敗了他。主持人: 好的。你在飛機上打敗了他,直接回家的路上? 是只有你和他對決,還是又像一群人一起玩?Mark Chen: 可能有三四個人。從高頻交易到OpenAI的轉折主持人: 好的。我覺得很多,我覺得有三類,尤其是在,比如說,如果你回顧到2018年左右的時間範圍,對於在人工智慧領域處於高水平的人來說,我認為我沒有過度概括,其中很多人都有學術背景,很多人是數學神童,或者他們將自己的數學背景應用於機器人技術或物理學之類的工作。然後是另一類人,他們曾在華爾街從事高頻交易和量化分析之類的工作。所以你的第一條道路就是直接從麻省理工學院去了華爾街。Mark Chen: 我並不太為擁有那樣的經歷而感到驕傲。坦率地說,那對於在麻省理工學院(MIT)中那些非常注重量化分析的孩子來說是一條相當普遍的道路。那當然,那絕對是一個非常講究精英治國(meritocratic)的體系,你可以運用你的智慧,而且有一條非常明確的路徑決定了你將獲得多少利潤。但我想在文化上對我來說是困難的。那是一個地方,當你發現一些東西時,你的第一本能是把它儘可能地藏起來,因為你的知識就是你的價值所在。感覺即使在公司內部,像這樣的競爭動態也會產生一種外部表現,人們之間互不信任。而且我認為它也感覺像一個非常封閉的生態系統,我想我們今天不會太有感覺,比如,當高頻交易(HFTs)中的某人發現了一個讓他們的演算法快一點點的突破時,其他任何人都沒有感覺,隨著時間的推移,我只是覺得,四五年後我醒來時,我們正在與完全相同的參與者群體競爭,每個人都只是一點點快了大約一點,但世界真的因此改變了那麼多嗎?我覺得是時候做點別的事情了,當時正好有一堆事情湊到了一起,有阿爾法狗(AlphaGo)那場比賽,我認為那對 OpenAI 的很多人來說是一個巨大的鼓舞。Mark Chen: 你玩圍棋嗎?我沒有玩,但我認為從某種意義上說,那個模型能夠做一些有創意的事情。我真的很想瞭解那背後到底發生了什麼。主持人: 所以你看到了那一幕的發生。你當時有沒有閱讀過人工智慧的研究論文之類的東西?Mark Chen: 說實話,沒有。然後我看到了那個事件。那真的很有啟發性。從那時起,我才開始深入研究人工智慧。看到那之後我的目標之一就是復現深度Q學習網路(DQN)的結果。這是一個能夠高效地以超人水平玩很多雅達利(Atari)遊戲的網路。從那裡開始,這就是我接觸人工智慧的起點。你當時是業餘時間做那些事情嗎?主持人: 所以你工作一整天,然後回去再試著。好的。這確實很奇怪。我記得我當時在採訪喬治·哈茨(George Hatz),大概是在2018年左右,也許再早一點,他剛剛自己動手在他的車庫裡造了一輛自動駕駛汽車。然後,這是喬治。所以他會說出宏大的陳述。Mark Chen: 有時這可能不完全精準或放之四海而皆準,或者不適用於其他人,但他他就像人工智慧仍然很年輕,你可以,如果你閱讀,我不知道是多少,10篇、20篇、30篇研究論文,你就可以瞭解整個領域。我是說,這讓我著迷的是,它在很多方面都很古老,可以追溯到幾十年前,但這個特定的時刻非常淺薄。我總是給那些對進入這個領域感到不知所措的人這個建議:它太淺薄了,花上三到六個月時間,選擇一個項目,比如你可能知道的,復現DQN,你就能非常快地達到前沿。過去幾年增加了一點深度,但它完全不像你所知道的理論數學或物理學。你認為這是一個這樣的領域嗎?我前幾天問了雅各布這個問題,我不知道我為什麼對這個問題如此著迷,但在數學中,你會看到人們傾向於在20多歲時做出最好的工作或取得重大突破,然後隨著他們變老,很難再有那種時刻。就像你說的,我們是否依賴年輕人閱讀這些論文然後產生一些見解,還是說這是一個可以讓你在整個職業生涯中不斷進步的事情?我是說,我認為你可以一直進步。我是說,OpenAI本身確實有一個相當年輕的文化,但我認為你不必年輕才能做出好的研究。我認為,年輕且對既有範式瞭解較少,會讓人覺得這就是行事的方式。主持人: 我認為隨著時間的推移,你可能會形成自己的願景,這是一件好事,但這也會讓你固守一種思維定勢,比如,研究就是這麼做的。Mark Chen: 好的結果就是這樣產生的。我認為年輕的研究人員在這方面的概念上傾向於有更多的可塑性。主持人: 你的職業生涯在 OpenAI 中很有趣。看起來你一開始就進入了一個非常重要、規模很大的職位。但當你在 2018 年剛去的時候,人數大概只有 50 人左右?Mark Chen: 當時人數更接近 20 人。更接近 20 歲了。當時看起來確實像是兩個團隊。我是以住院醫師的身份加入的。一個明顯不是專家、不是博士的人。我想我在他任職於“開眼”(Opening Eye)期間,一直都是住院醫師。所以在這方面我非常幸運,能夠學習他是如何從宏觀層面思考研究的。在這種情況下,住院醫師就像是你的得力助手。所以是某人進來,通常是來自另一個領域,他們是初入此道的人。我想投資並培養人工智慧方面的人才。所以我想住院醫師的第一階段就像是一個為期六個月的壓縮版博士學位。然後在此基礎上,深入到越來越深的研究項目中去。主持人: 所以你幾乎每天都在和伊利亞交流?Mark Chen: 他是不是在塑造你的博士研究?他負責我的項目、我的課程設定和我的學習。我就是會去找他,問“嘿,這是怎麼回事?”比如,人們為什麼會追求這個?主持人: 而且,我想如果你去領英(LinkedIn)上查看,上面會寫著你在OpenAI的第一份工作就是前沿研究負責人。不不不。我在IC(可能是指某個部門或角色)待了大概三年。Mark Chen: 好的。所以我當時在做獨立研究項目。我研究生成式模型,因為那確實是伊利亞當時關注的重點所在。然後過了一段時間我才開始管理團隊。主持人: 您說的是生成式。大多數人可能會指出Dali是第一個被公眾廣泛記錄的重大項目。這公平嗎?Mark Chen: 所以我想這也標誌著我從個人貢獻者(IC)轉變為管理者的過渡。我自己的一個重要項目,也是我今天非常自豪的一個項目是ImageGBT,這個概念驗證表明,即使在語言之外,你也可以將圖像之類的內容放入Transformer中,模型就會內化非常好的表徵,並理解圖像的內容。這就像一個概念驗證,證明你可以對純文字之外的內容進行語言建模,並獲得非常好的表徵,並將它們擴展到與其他方法一樣先進的水平。我認為那是Dolly的一個先驅工作,而我當時正處於管理的對立面。而且我認為在這兩者之間,我作為個人貢獻者(IC)參與做的另一個讓我非常自豪的項目是Codex,我們在其中為評估程式碼模型建立了很多框架,並對如何使語言模型在程式碼方面表現出色進行了深入研究。主持人: 那麼,是什麼讓你選擇了‘開眼界’(Opening Eye)呢?因為我可以在腦海中從兩個方面來看待這件事。一個是在小池塘裡的大魚。這裡有很有趣的人。我記得2018年時,OpenAI只有20個人。在我看來,就像是,這可能不會成功。Google似乎已經把這件事鎖死了。而且這只是一小群人,試圖挑戰一件看起來需要數十億美元現金的事情。這甚至是在規模化(scaling)工作之前,當時Google已經在人工智慧領域投入了大量的資金,只不過形式與我們現在所想的不同。但你已經在手機上做翻譯之類的事情了。所以這對你來說是一個艱難的決定嗎,還是你這麼快就偶然進入了OpenAI的工作?Mark Chen: 我認為有兩件事,你需要有抱負和遠見。這當然是OpenAI當時所擁有的。但也需要有足夠的人才來支援它,而且我覺得OpenAI是少數幾個抱負遠大,但人才也足夠大到能夠彌補這一差距的地方之一,而且你知道我很幸運,我在大學時期就認識像格雷格這樣的人,格雷格是在麻省理工學院(MIT)和你一起的,我想我們在高中時一起參加過數學競賽,對,然後我給他發了條資訊,我說,我不太確定我是否具備正確的技能組合,但這聽起來像是一個正在做著出色工作的機構。主持人: 這仍然讓人覺得很瘋狂,就這樣憑空出現,現在你卻在領導研究工作。對我來說也是超現實的。Mark Chen: 對我來說也是超現實的。即使是從個人貢獻者(IC)到管理者的轉變,我當時對接受這個職位也非常猶豫。我不知道管理是否是我會擅長的技能組合。我真的很享受資訊安全(IC)方面的工作。我想我做得很開心,做得非常出色,建立了非常棒的合作關係。這真是一段瘋狂的旅程。領導力危機與團隊團結主持人: 關於這一點,你一直給我一種非常隨和、頭腦冷靜的人的印象。Mark Chen: 我必須說,OpenAI 的歷史中有一些安靜的、戲劇性的、肥皂劇般的、有點像《權力的遊戲》的權力鬥爭,對我來說,作為那裡的管理者,我想說現在感覺這些比過去要平靜一些,但是當你回顧過去時,我不知道,你是在說你必須學習這些技能,但其中一些感覺與你的個性背道而馳,需要處理所有這些事情。老實說,我在 OpenAI 運氣很好,我真誠地這麼說,從某種意義上說,我的管理者真的為我爭取過,他們看到了我的才能並為我爭取過。我想當我參與 Codex 的工作,後來向鮑勃匯報時,我從來沒有要求過晉陞或提升職位,這都是自然而然發生的,而且一路上每個人都給了我很好的建議。我想作為一個人成長的部分,就是獲得經驗,我認為在 OpenAI 沒有比這更好的地方來獲得這些經驗了,總是有挑戰需要解決,我認為培養這種信心,我實際上認為管理層更多地是關於經驗,而不是才能。我不想讓你尷尬,我不知道這是否會讓你尷尬,我猜你可能也不想過多地談論那次政變或小插曲,或者我們想談論什麼,我們可以談論任何事情,我只是,我已經採訪了很多人,關於這個問題,我也會把我的“寶石”留給我的書。我不會那樣做,但我不會說出來,但其中有幾個時刻,你,你幫助研究人員圍繞那件事達成一致,就是要求讓山姆回來,然後,然後我想在那一兩天后,有一個,有一個演講,我認為是在格雷格的房子裡給出的。主持人: 是嗎?Mark Chen: 我想是在切爾西的房子裡。主持人: 好的。這兩件事都讓我覺得是非常深刻的時刻,尤其對於,我猜是為自己所相信的東西站出來並召集人馬來說。Mark Chen: 就像在危機時刻,我不知道,所以那些,那對我來說確實感覺是一個非常關鍵的時刻,我想在飛艇事件後的幾天裡,有很多不確定性,我和當時在尼克·巴雷特都感到有責任,野狼就在我們腳後跟上,每個人都在接到來自所有這些競爭實驗室的電話,他們說,你應該來我們這裡工作。我給自己定了一個目標,我不會失去任何一個人。而且我們也沒有。每天都向人們敞開我們的家門,人們可以來這裡。他們可以,有一個地方來釋放他們的焦慮。然後也幫助他們與領導團隊保持聯絡,讓他們覺得自己能夠有所作為。我想,隨著時間的推移,人們真正感受到了‘我們都在同一條船上’的精神。我們如何才能有所作為?我們如何向世界表明我們團結一致?我們當時在幾處住所之間來回奔波,我們有了一個想法,就是‘嘿,我們需要向世界表明我們思想高度一致,我們將為薩姆而努力’。然後我們組建了請願書團隊,那個想法我想在凌晨2點才最終定稿。主持人: 我想到了早上,我們獲得了整個研究組織超過90%的人的簽名,每個人都在給他們的朋友打電話,問‘你加入還是不加入’,我想最後有接近100人簽署了那份請願書。不過我必須說,這讓你處於一個很艱難的境地,尤其是在一開始,伊利亞和薩姆似乎站在對立面,而伊利亞是你的導師,然後我知道伊利亞後來又回來了……我不知道,那會不會很尷尬?那很艱難,那是一個資訊稀疏的環境,但從根本上說,我認為在那個時刻,你很可能得出結論:薩姆在這裡做了什麼嗎?有沒有……但是格雷格和雅科夫這樣正直的人會因此辭職嗎?Mark Chen: 我只是覺得,故事的某一部分在這裡被誤解了。主持人: 雅各布在那裡待了很長時間了。比如,人們應該瞭解雅各布的那些方面而他們卻不知道呢?這很有趣,因為他是個超級有趣的人。Mark Chen: 他太搞笑了。我的天那。他有一種諷刺的幽默感。這讓我笑得很開心。老實說,這是我今天喜歡“Open Eye”的方面之一。就像我與 Yaacob 的契合度一樣,我感覺我們走進會議室,就可以互相碰撞想法,快速達成一致,然後傳達同樣的資訊,並且可以在一個宏大路線圖的不同部分協同運作。這是我在 OpenAI 工作所擁有的巨大特權之一。回到關於讓人們團結在一起的那個觀點,我對 OpenAI 的研究仍然有同感,我認為我們正受到攻擊,我們是一個大家庭,我們一直受到攻擊,你看,當任何一家公司開始時——這就是我知道我們處於領先地位的方式——他們會從那裡招募人才?就是 OpenAI,他們想要專業知識,他們想要我們的願景,可以說是我們對世界的理念,我們培養了這麼多頂尖研究人員,我認為 OpenAI 比其他任何地方都更能造就當今 AI 領域的名字,我仍然有同樣的保護欲,就像有人來找茬,我會盡我所能確保他們快樂,確保他們理解他們在 OpenAI 的角色,你知道他們的角色如何融入路線圖。我認為我在寫書時或者只是即時關注事件發展時一直在與此鬥爭,就像我回顧歷史,你有伊利亞(Ilya)在 2012 年取得了重大突破。主持人: 然後,2017 年你在Google有諾姆(Noam)在做 Transformer 模型。然後你有亞歷克·拉德福德(Alec Radford)。比如有時候故事是這些個人真正推動著這個領域向前發展。而且感覺這是一個仍然非常年輕的領域,你可以有,有這樣一個人。然後似乎有一群人,我不知道具體人數,我們稱之為八到十人,他們似乎有能力反覆做到這一點,他們真的在塑造著這一切將走向何方,所以當我開始看到像約翰·舒爾曼離開或亞歷克離開,然後感覺哇,如果你失去了一部分全明星團隊,你該如何……這似乎是一個你無法輕易替代的領域,但在那之後,你們在推理和一些其他方面取得了進展。所以我不確定,我在智力上遇到過困難。Mark Chen: 我確實不同意這是當今進行良好研究的總括性方式。我認為自上而下的引導肯定有很多。我們押注於方向,但Openet也有一個非常深入的自下而上的優美文化,其中一些最好的想法有機地出現,有時是從最令人驚訝的地方冒出來的。我認為真正偉大的事情是看著這些賭注如何展開、成形、擴展,而推理就是其中一個核心例子。主持人: 而且,那麼在這個想法中,比如我們有多依賴明星?因為你仍然看到Google花費巨額資金把諾姆帶回來。你懂我的意思吧?Mark Chen: 所以這讓我想,這就是它的運作方式。我認為這是一個混合體,比如你必須投資於你的人才儲備,因為我對我們培養明星的能力非常有信心。但確實,外面有非常優秀的人才,而且每個人都知道他們很優秀。我認為如果說我從Meta學到的一件事是,Open A也可以非常積極地追逐頂尖人才。有一種非常積極的招聘方式,我也借鑑了一些方法。但我認為我們應該始終努力組建最好的團隊。為了實現我們想要完成的使命。主持人: 這很有趣,因為這是一個相對小的圈子,而且你們所有人都聚在一起,即使你們是競爭對手,然後。我知道。這肯定很奇怪,因為在某種程度上我知道你和不同的人是朋友。然後你還試圖竊取他們所有最好的東西。Mark Chen: 在所有層面上,這都是一個殘酷競爭激烈的行業,但話說回來,這也是我所熱愛的。我是一個極具競爭力的人。我討厭輸。無論是在研究方面,還是在招聘方面,在所有這些方面。我會非常努力地對待它們。知識共享與領導層協作主持人: 這讓我想起,因為我有點像個半導體,我是一個歷史迷,但早期的半導體時代並沒有那麼遙遠。所有這些半導體初創公司一下子都出現了。他們都在挑戰物理學的極限,最終會有人在那一點上發現一些新東西。Mark Chen: 他們會去酒吧,就像那些工程師一樣,他們無法停止彼此之間分享知識,但同時他們也被拉扯著,這很艱難,每家公司都在以這樣或那樣的方式迅速取得突破,你提出了一個有趣的點,即總會有某種基礎的知識傳播,我認為公司對此有兩種應對方式:一種是建立深度的資訊孤島,就像“嘿,我們要用所有這些方式來保護資訊”,我認為OpenAI不是這樣運作的,我們也不認為這是正確的運作方式,我們只是會盡快地跑贏其他人。我喜歡這種開放的文化。研究人員可以自由地分享想法。我認為這是取得最快進展的方式。主持人: 那麼,薩姆和雅各布現在如何合作呢?我想人們有時,如果你閱讀公告和所有內容,你會發現薩姆更側重於研究,而不是公司的日常營運,你知道我的意思嗎?你可以看出研究是他的熱情所在,甚至從頭銜和組織方式上也可以看出,尤其是最近,你和雅科夫對這些事情非常深入,我知道薩姆很懂技術,但你們倆總是沉浸其中,然後你知道薩姆在和每個人交談,我只是對你們三個人之間的這種動態感到好奇,以及如何——我的意思是你們不總是在資源分配上達成一致,但是,我只是對你們感到好奇,我們是一個非常緊密的群體,我每天都和薩姆和雅科夫交談,對於薩姆來說,他熱愛研究,他熱愛瞭解研究,他喜歡與研究人員交談,我認為在某些方面,他非常善於把握研究部門的脈搏。Mark Chen: 我還要依靠他來,這裡是否存在任何隱藏的潛在問題。去發現它們,向我揭示出來。雅科夫和像是個性還是技術上的?可能只是一些小事情。比如,比如辦公室的佈局方式,使得這個團隊和那個團隊更難協作。而他們兩個就是讓我去協作,以幫助我們實現我們想要的突破。所有這些事情,都非常、非常重要。我想雅各布和我花了很多時間來設計如何讓工作取得成功。主持人: 我認為將能力互補的人員搭配在一起,還有如何激勵人們朝著我們認為重要的方向努力。Mark Chen: 我們所做的工作中很大一部分就是這些。主持人: 還有,薩姆,他在幹什麼?他,比如,他在讀論文嗎?他在和你們聊天嗎?Mark Chen: 我認為他閱讀論文的工作量也佔了他應得的份額。主持人: 他與研究人員交流,瞭解他們如何看待世界、你們進行的研究類型,當然,他還負責這之外的龐大事務範圍。深入技術:預訓練、推理與算力擴展主持人: 我現在要問一些比較鑽牛角尖的問題,或者我將嘗試問,我不知道我能否達到我們期望的水平,但我會盡力而為,我會問……我不知道其中有多少內容是絕密,但是……但是,也許你會不小心說漏嘴,我們會把它問出來。在我參加過的會議中——我也不認為我是在洩密,因為我們已經討論過一些了——我想我在這裡是安全的。但是,預訓練似乎是這樣一個領域,感覺……似乎你們覺得你們已經弄明白了什麼,對此感到興奮,認為這將會是一個重大的進步。它也曾是我認為被忽視或有點令人不快的地方。以前的事情可能正如你們所期望或希望的那樣運作。你們能告訴我們你們弄明白了什麼,以及在某種參考框架下,我們已經看到了這些周期性的巨大飛躍?Mark Chen: 絕對的。所以我想我從高層次來描述一下過去兩年的情況,我們在推理、在理解這個原始能力並使其奏效方面投入了大量的資源。而且它確實奏效了。而且我認為,這樣做的一個副產品是,你在其他職能(如預訓練和後訓練)上會損失一點肌肉。在過去的六個月裡,我和亞克沃(Yaquo)做了大量工作來重建這種肌肉。我認為預訓練確實是一種需要鍛鍊的肌肉。你需要確保所有資訊都是最新的。你需要確保在最前沿的人員正在從事最佳化工作,在最前沿的人員正在從事數值計算工作。而且我認為你也必須確保關注度到位。這也是我最近專注於做的事情之一,就是引導和塑造人們在公司內部討論的焦點,而今天,這個焦點非常集中在預訓練上。我們認為預訓練有很大的發展空間。很多人說規模化已經死了。我們完全不這麼認為。從某種意義上說,所有對強化學習(RL)的關注,我認為對我們來說有點像是“阿爾法”(優勢),因為我們認為預訓練還有很大的提升空間。而且我認為,作為這些努力的結果。我們一直在訓練更強大的模型。這也給了我們極大的信心,可以推進到,Gemini III以及今年年底即將發佈的其他版本。主持人: 我有時在腦海中構想的方式是,你們一直在做這件事,你們跑得太快了。整個領域都跑得太快了。所以我們正處於這樣一個時刻,就是‘我們已經從網際網路上收集了海量的資訊’。我們把這些資訊投入到這台超級電腦上。然後,ChatGPT就這樣誕生了,然後我們就捲入了一場正在進行的、令人難以置信的競賽中。比如,當我聽到你們說話時,我只是試著從一個基準的角度來思考這個問題,也許是為那些沒有那麼密切關注此事的人設定的一個基準。在最初的那個時刻,你擁有了海量的資料。你將這些資料一股腦地扔給這個機器。Mark Chen: 你最初會嘗試對這些資料進行一些塑形,而現在我們只是在學習更有效的方式來塑形它,所以不總是清楚錯誤在那裡,我確實認為,你提到了我一直在深入思考的一個問題,對吧,當你想到預訓練時,你獲取人類書寫的データ並教模型如何模仿它,對吧,它理解了人類的寫作模式。從某種意義上說,這也會成為瓶頸,並限制了你能夠達到的能力上限,當你模仿人類的書寫時,你實際上無法超越人類寫下的內容。Mark Chen: 你會致力於像強化學習(RL)這樣的東西。在那裡,你可以真正地朝著人類能想到的最困難的任務進行引導,讓模型做一些跳出固有思維、跳出它從模仿人類中學到的東西的思考,並實現更高水平的能力。但現在出現了一個很有趣的問題:我們如何超越人類今天所能做到的事情呢?我也在那裡發現了嚴重的衡量問題。即使是在“人類能否評判科學領域中的超人表現”這個意義上,我們怎麼知道一個超人數學家比另一個超人數學家更厲害呢?數學家,我們確實需要想出衡量這個世界取得進步意味著什麼的更好評估標準,到目前為止我們一直很幸運,有一些競賽,比如國際數學奧林匹克(IMO),它真正衡量的是誰是世界上最頂尖的數學家,但是當模型的 AI 能力超越人類時,就沒有更多的測試了,你剛讓我想起一個問題,回到 IMO 的事情上,我是說,抱歉,我們稍後會再回來談這個的。主持人: 它剛剛完全跳入我的腦海。比如,我經常看到那些在這些競賽中表現出色的孩子。他們會被Google或臉書之類的公司錄用,但他們之後並不總是頂級的執行官或最著名的工程師,也許這是他們的選擇,但我認為甘迺迪並沒有像邁克爾·喬丹那樣最終在這些公司工作。這完全可能是出於選擇。我不是想貶低它。但對我來說並不清楚,比如,對我來說並不清楚,在人類中表現出色的人,不一定是你將擁有的最偉大的工程師。如果一個人工智慧特別出色,我們能學到什麼呢?Mark Chen: 這就是我喜歡在人工智慧領域工作的原因。我認為,與標準工程文化相比,它更像是一個精英統治(meritocracy)的體系,因為,我試過這個。很多次了,也吸取了這個教訓很多次了,但讓一個得不到他所領導的研究人員尊重的管理者來領導一個團隊是很難的。我想在研究領域,這一點比其他任何領域都更為突出。你必須做出非常堅定的技術判斷,比如,這是正確的方向。當出現分歧時,這是一種正確的項目選擇。主持人: 如果你做出了錯誤的判斷,你就會失去研究人員的尊重,與人工智慧合作和建立一個強大的人工智慧組織中的有趣之處在於,你知道我的整個團隊都是非常精通技術的,和他們談論技術問題很有趣,關於這個,我正在再次進行預訓練,片刻,對我來說,在我腦海中,感覺像Transformer引發了這次巨大的、巨大的飛躍,我是說,推理對我來說感覺非常相似,如果不是更令人驚嘆的話。當我在過去幾個月裡和你們交談時,我的,我永遠無法判斷這是否是樂觀情緒,你們是否只是在盡力而為,但當我與你們、與格雷格、與雅各布、與薩姆交談時,我的感覺是,你們似乎在進行三、四、五年的艱苦工程工作,但這些工作還沒有完全顯現出來。所以我永遠無法判斷應該有多興奮或不興奮。比如當你們暗示你們看到的一些東西時,你們是否覺得,是否已經可以判斷出這相當於那些重大的、末日式的飛躍?Mark Chen: 我想Mark Chen: 我想當我們發佈GPT5時,我們也談了很多關於合成資料的事情,這種形式的許多其他線索,我們認為它們具有相當大的潛力,並且我們現在正在非常積極地擴大規模,而且我認為這總是關於保持這種投注組合,選擇那些提供更多實證潛力的,並以更大的程度擴大規模和支援它們。就在大約兩周前,曾在OpenAI工作的安德烈·卡帕西(Andrej Karpathy)參加了多卡斯(Dorcas)的播客,並說了一些話,比如讓AI行業很大一部分人感到洩氣,他說,我認為他說的是,通用人工智慧(AGI)大概還有10年,10年才能實現。主持人: 然後當我聽到,然後我大約一周前聽到達里奧(Dario)在談論,他似乎非常堅持那種大規模的科學觀點,他稱之為“天才之邦”(Nation of Genius)?他似乎仍然堅持那種,可能慢一點,但對那個時間線是兩年左右的看法。當您聽到安德烈所說的,您是怎麼想的?Mark Chen: 我認為推特(Twitter)很喜歡這種循環,太糟糕了,我們回來了。而且,當時對敘事有幫助的任何事情,我認為,都會被放大。主持人: 我正試圖在這裡做一個點選(理解/突破),但我的思考方式是,這就像通用人工智慧(AGI),每個人都為自己的AGI定義一個點。Mark Chen: 我認為即使在OpenAI內部,你也無法讓房間裡的每個人都達成一致,說:嘿,這是我對AGI的清晰定義,並且它是一致的。所以我傾向於將其視為一個過程,就像你正處於工業革命時期,你是否認為機器製造紡織品,這就是工業革命,還是蒸汽機才是工業革命?每個人都有自己不同的定義。我認為我們正處於產生AGI的過程中。對我來說,我認為我最關注的一點是,我們是否正在產生新的科學知識?以及我們是否正在推進科學前沿?我感覺自今年夏天以來,在那方面出現了一個巨大的階段性轉變。AI在科學發現中的作用主持人: 從你看到的情況來看,首先跳入我腦海的是所有那些處於生物技術領域的初創公司,它們展示了,一次性抗體和分子,但我對它們一無所知。你是誰?Mark Chen: 我深受那位物理學家的影響,回去想,嘿,我們應該為科學建立一個開放的人工智慧。我認為我們的目標是,對於今天意識到這些模型潛力的少數科學家,並且覺得他們想要投入並加速發展,我們應該盡我們所能來加速他們。而且,我知道其他公司也有類似的目標,旨在推動科學前沿。但我認為我們想做的是,並且我想說,在與Google在科學領域的工作相比,我們有所不同的一個框架是,我們希望讓每個人都有機會為自己贏得諾貝爾獎。這更多的是關於我們為開放人工智慧贏得榮譽,那會很好,但我們希望建構工具和框架,以便所有科學家都能感受到這種加速的影響,而且我們認為我們可以共同推動該領域的發展。主持人: 當你談到你感到興奮的那些發現時,是否還有其他更具體的你所說的那些……我想,如果你想要一份非常詳盡的此類發現列表,你可以去看看塞布(Seb)的推特帳戶。所以最近,有一篇關於開放凸最佳化問題的 JPD5 論文,那是塞巴斯蒂安·梅巴赫(Sebastian Me Back)的推特帳戶,這與我們正在解決的一些核心機器學習問題密切相關。我知道有人認為這些東西只是花哨的文獻檢索或類似的東西,但實際上它比那複雜得多。我本來可以舉出一些例子,但我老實說,我現在應接不暇,因為我基本上是一個通才,但我尤其關注生物技術領域,感覺每隔兩天,夥計,我走進辦公室,他們就會說“我們正在製造一個人工智慧科學家”,或者“我們一擊就獲得了人體結構資訊”,所以一部分的我感到很興奮,而且,在我認識的這些公司中,至少有幾家的負責人和真正的科學家我都認識,太多的事情讓我覺得要麼是真正了不起的事情正在發生,要麼是到處都是,對我來說,要分辨出那裡是現實,資訊量太大了。我個人不會對它發生在生物學領域感到驚訝,因為我在電腦科學和數學方面擁有最多的專業知識,而且我們確實有那裡的專家可以證實這些都是正在取得的發現。Mark Chen: 那就是給我最大信心的東西。但我一點也不感到驚訝。這正在生物學中發生。主持人: 但就像你說的,這與……有點不同,我同意,敘事似乎每三周就改變一次。但就像你說的,這有點不同,因為即使在安德烈說那話之前,最大的批評對我來說,我當時在聽一個政治播客,薩格,我想是“突破點”(Breaking Points)。這是他們的播客,你知道他是一個相當聰明且知識淵博的人,但他一直在抨擊人工智慧和缺乏進展,說這都是想像出來的,都是……如果這些發現沒有發生的話,我想公眾已經意識到了這一點,僅供參考,在為開放科學(Open Air for Science)做準備的過程中,我們與許多物理學家、許多數學家進行了交談,而且實際上我們交談過的大多數人對人工智慧並不那麼看好。Mark Chen: 他們仍然相信,嘿,這個東西不是一個可以解決新定理的東西。那是不可能的。一定還有其他事情在發生。這就是為什麼我覺得賦權給那些真正相信並投入其中的人群非常重要。主持人: 就像那些人只是,會超越其他所有人一樣。Mark Chen: 我們希望建構工具並說服人們,這是進行科學研究的正確方法。主持人: 好的。就這一點而言,我承認每個人對通用人工智慧(AGI)的看法都不同,但至少我聽到的是,用你想要稱呼它的任何方式,你覺得在未來一兩年內,我們會看到巨大的變化,這有點像一個梗,就像“通用人工智慧什麼時候才能實現?”我認為我們已經不在那個世界了,是數學和科學中的這些成果給了我這種信念,但在 OpenEye 的研究工作中,我們設定了兩個非常具體的目標,Mark Chen: 一年之內,我們希望改變我們進行研究的方式的本質。我們希望在研究開發過程中能夠富有成效地依賴人工智慧實習生。在兩年半的時間內,我們希望人工智慧能夠進行端到端的研究。我認為這是非常不同的。就像今天一樣,你產生一個想法,你執行它,你實現它,你偵錯它。這意味著在一年之內,我們非常有信心能夠達到一個我們控制外部循環的世界。我們提出想法,但模型負責實施和偵錯。算力需求與Gemini 3的競爭主持人: 好的。在預訓練之外,當我與你們交談時,我有時會感覺到類似的事情。就像我們所有人的腦海中,至少是我所說的那類人,都有一個共識,就是存在一個大規模的基礎設施建設,而且每當你們將模型算力提升10倍時,模型似乎就會變得更好。有一段時間有個說法,當你們從4代轉向5代時,儘管獲得了更多的計算資源,但並未看到預期的效果。但後來我與你們交談得越多,就越感覺你們認為我們實際上還沒有——那時事情發展太快了,我們還沒有。實際上看到實現算力提升10倍的那個時刻。我不知道我是否把這個問題問得很清楚。Mark Chen: 我的確有一個想法想分享,那就是,當人們問你們真的需要所有這些計算資源嗎?這是一個非常令人震驚的問題,因為在日常工作中,我處理著大量的計算請求。而且,我現在的想法是,如果我們今天有3倍的計算能力,我能立即非常有效地利用起來。如果我們今天有10倍的算力,很可能在幾周之內就能完全高效地利用起來。我認為對算力的需求確實存在。我沒有看到任何放緩的跡象。當人們問我們,比如“你們真的需要更多的算力嗎?”時,我真的感到很困惑。這對我來說沒有意義。主持人: 你認為,就我剛才那個很糟糕的問題的大致方向而言,就是關於你們對預訓練進展非常樂觀的方面,你們是否同樣,不只是人們想要更多GPU的需求,而是你們是否能非常清楚地看到同樣的趨勢,即擴展即將迎來一個高峰期。Mark Chen: 我們絕對希望繼續擴展模型。而且我認為我們擁有能夠擴展模型的演算法突破。而且,我認為Gemini III有很多令人印象深刻的地方。我注意到的一件深入研究後發現的事情是,當你查看像Sweet Bench分數這樣的東西時,在資料效率方面仍然存在一個他們尚未解決的重大問題,他們在這方面還沒有取得太大進展。我認為我們在那裡有非常強大的演算法。主持人: 還有一份洩露的備忘錄,我是說,薩姆在這份備忘錄中對 Gemini 三號聽起來相當憂心忡忡。我正在努力尋找那段引文。你,你肯定收到了那份備忘錄。好這似乎是一個小小的轉折點。Mark Chen: 我確實認為薩姆工作的一部分是注入緊迫感和速度。這也是我工作的一部分。我認為我們專注於規模化非常重要。主持人: 而且我確實認為,Gemini III 正是Google應該追求的正確類型的賭注。Mark Chen: 與此同時,我會這樣校準:我們工作很大一部分就是儘可能地向組織注入緊迫感。這是一個很好的模式。我想我們已經有了對策,而且我認為我們可以更快地執行後續工作。與Jony Ive的合作與AI硬體主持人: 你對我確信你會精準地告訴我關於喬尼·艾維裝置的情況,這類事情參與到什麼程度?研究部門是否也參與其中?Mark Chen: 確實如此。實際上,我昨天剛吃完晚飯。主持人: 如果你願意,你可以向我描述一下,絕對可以,它看起來是這樣的,昨天我正和喬尼以及一些研究人員共進晚餐,還有我們的預訓練和後訓練負責人,我真的很想談談我對ChatGPT未來的看法,你今天看你如何與ChatGPT互動,它給我的感覺非常愚鈍,它給我的感覺不像一個真正的思考者,你給它一個提示,對吧,你得到一個回覆,然後它不會為你做任何有成效的工作,直到你給出下一個提示。Mark Chen: 如果你給它一個相似的提示,它會思考相同的時間。它並沒有因為你提出了第一個提示而變得更聰明。而且,我認為未來將是一個記憶能力得到極大改進的時代。你每次與ChatGPT互動時,它都會對你學到一些深刻的東西。它會思考你為什麼會問這個問題,以及相關的問題。任何事情。然後你下次再去找它時,它就會更加聰明。我認為這確實引出了一個問題:你如何設計一個將此作為主導論點的裝置?我認為那是一次非常有成效的經歷。 我可能說過,也可能沒說過。主持人: 關於你們和約翰尼談論的事情,我的看法是:像蘋果這樣一家以硬體為核心的公司,那是史蒂夫·賈伯斯一直以來痴迷的東西,就像是一種手藝,一種藝術形式。你們中,無論是薩姆、格雷格、雅各布還是其他任何人,據我所知,你們以前都沒有做過硬體產品。薩姆似乎非常重視設計。我從他家的建築和其他事物上就能看出來。但是,沒有什麼可以證明的往績,就像我一直認為史蒂夫·賈伯斯是有品味的,你知道嗎?然後,我過去有幾個老闆,比如喬希·蒂爾曼,他曾管理《商業周刊》。他總是給我留下這樣的印象。他就是有品味,無論是某樣東西的外觀,還是一個故事應該如何敘述。這就像一種存在於非常高層次的與生俱來的東西。我覺得這有點像這裡所需要的。我想這就是為什麼在某種程度上你要有像約翰尼這樣的人。完全正確。但你必須要有這種來回的交流。我們怎麼知道你們中的任何一個人有品味,並且,可以塑造一個硬體產品呢?Mark Chen: 說實話,我們自己不需要有品味。那是約翰尼的工作。他是我們關於品味的判斷者。主持人: 我認為實際上有一件非常好的事情是,我意識到他們在設計方面的工作方式和我們在研究方面的工作方式存在一些深層次的共通之處,有很多探索和構思,你會探索一堆假設,然後你花時間,最後創造出你滿意的那個東西,那個你滿意的最終產物,讓他們融入公司感覺非常好,並且在關於我們要發佈什麼功能、最終產品形態是什麼樣子的,以及如何將它們融合起來的溝通方面,變得更加直接,我用一種很粗俗的方式來表達,因為我一生都在仰慕和與這些人交談,但有時我只是想,天那,我不知道一群數學迷是不是你想要讓他們來製造人工智慧電腦的人,你懂嗎?但我猜這就是你在談論的那種融合,老實說,你說得對,那些最擅長建構人工智慧能力的人與那些擁有最佳品味的人略有不同。Mark Chen: 我們確實有團隊是由那些對模型行為具有出色品味的人組成的。我認為你需要不斷問自己的哲學和一套問題非常不同。一個例子,比如一個好的品味問題,就像你可以想像的那樣,在模型行為面試中,像‘查夫·奇皮(Chav Chippee)’最喜歡的數字應該是多少?”主持人: 我很好奇你會如何回答,我認為它最喜歡的數字應該是多少?我有一個很愚蠢的答案,那就是我曾在波莫納學院(Pomona College)就讀,而47是那裡的一個“傳說”數字。我認為這是一個很好的答案。我馬上就讓你走了,你已經非常慷慨了,我非常感謝。有沒有……我將問你一個ChatGPT告訴我問你的問題。很棒。那就是,如果你回顧五年前,你現在看到的是否有一些微小、脆弱、初現端倪的想法,你的直覺告訴你,這些想法可能會成為重大突破的核心?有那麼幾個。Mark Chen: 我會說有那麼一小部分想法。我不能透露太多細節,但我非常非常興奮。有沒有一些提示或大致的領域範圍?我的確一直在集中精力於預訓練,一些與預訓練相鄰的領域,以及在強化學習(RL)方面的一小部分想法,以及一些關於如何將它們整合在一起的想法。我試過了,我試過了。所以你可能知道也可能不知道任何提示。不提示。我們談論了很多,我非常感謝你。OpenAI的未來展望與個人投入主持人: 我感覺我在讓那些書呆子們,就是那些痴迷於人工智慧的人們有點失望,是嗎?目前,有沒有什麼技術上的、或者你們認為大家對你們有些誤解的地方,是你希望澄清的?Mark Chen: 我認為最重要的事情是,我認為任何在OpenAI的人,在研究領域的人都會告訴你,這只是一家以研究為中心的公司。這是一個純粹的人工智慧賭注。公司的核心,其抱負是建構通用人工智慧(AGI),而且是在沒有干擾的情況下建構它。我認為任何關於產品建構的事情,都非常容易地源於此。主持人: 當我們談到我們在研究中想做什麼時,我們想實現人工智慧研究的自動化。Mark Chen: 我認為從私心上來說,我們想加速我們自己的進步。主持人: 然後我們想實現科學發現的自動化。Mark Chen: 當然,我們也想實現經濟上有用工作的自動化。我認為所有這些支柱都在倒塌。你看到過去一年中最大的更新,就像在自動化科學研究的第二個支柱中一樣。它正在發生。主持人: 你現在多大了?Mark Chen: 34歲,快35歲了。主持人: 快35歲了。好的。你還能有社交生活嗎?Mark Chen: 說實話,不能。我認為過去兩周的每一天,工作電話一直打到凌晨1點或2點。但我喜歡這樣做,只是有很多工作要做,有很多我想招募的人,有很多指導需要完成,而且為什麼浪費這個黃金時刻呢?就像我們正處於一場工業革命之中,你必須儘可能多地利用它。我聽說你睡在辦公室的故事,那也是很有趣的一次。老實說,這只是……我想在公司總有一些時候,我想是在米拉·德穆拉離開並自己創辦公司之後,工作就是要求如此,而且,當我把所有的一切剝開並審視那種深層的情感時,它只是對那項研究的保護欲,那是在米拉離開之後。花一個月的時間,有點像睡在辦公室裡。主持人: 這感覺就像我需要保護這個研究藥物。他們感覺,感覺就像我的寶貝一樣。所以你們經歷了這些波折。發生了政變。每個人都在試圖挖走你的人。我猜每個人一直都在試圖挖走你的人,但你遇到了這個拐點。Mirror Leaves,Meta 決定要啟動這個龐大的實驗室。你覺得,我們是不是,我們已經度過那個階段了?到目前為止,所有人都已經亮出底牌了嗎?我有我的團隊。Mark Chen: 會議,我和我的下屬談了談。我說,我要處理的事情是這樣的。等我回來,等我完成這個(工作)執行緒後,我會進行宏觀審視,到時候就沒有什麼緊急情況了。所以到目前為止,我已經完全內化了,建構通用人工智慧的風險足夠高,所以總會有事情發生。我想重要的是,能夠在所有這些事情正在發生的時候,明白那些是重要的事情。主持人: 你是不是感覺已經過去幾個月了,都沒有那種深度探索的時刻或者其他什麼。我猜是十二月,24號左右,我想是。早些時候,或者一月份。現在有什麼嗎,感覺人們瘋了一小會兒,現在回顧一下並看看他們從那時起做了什麼,關於開源模型和中國的開源模型,我猜有一些想法。Mark Chen: 我認為那是最早的幾個時刻之一,我才意識到我們堅持我們的研究模式有多麼重要。我想當那個出來的時候,它瘋傳了,就像每個人都在說,天那,像開放眼(OpenAI)是否迷失了方向?這些模型在迎頭趕上嗎?有什麼回應嗎?有什麼回應嗎?有什麼回應嗎?我想我們所做的,而且是理所當然的,就是加倍投入我們自己的研究項目。而且我不認為那是對的,那是完全錯誤的決定。我還沒看到DeepSeek的後續模型。我認為他們是一個非常強大的實驗室。但從根本上說,我們還是應該專注於創新。我認為DeepSeek是對我們主系列模型中思想的一次很好的復現。但我們還是專注於創新吧。主持人: 你認為500人這個數字,隨著公司的發展它會增長嗎?還是說這是可以同時追求的大型想法的最佳人數?Mark Chen: 說實話,我覺得甚至可以用更少的人來完成。再說一次,當我們招聘人工智慧研究人員或人工智慧實習生時,如何圍繞這一點設計團隊,這是一個真正的問題。但我肯定是一個非常重視高人才密度的人。我喜歡以這種方式進行大量的實驗。舉個例子,在今年第二季度,我想,嘿,我就是不會為研究部門的任何人增設職位名額。如果你想招聘人員,你就得弄清楚誰不在船上(誰不應該被留下)。我認為這類練習非常重要。你不想讓工作蔓延到無法管理的程度,而且你想把人才標準保持得非常高。主持人: 我保證這是最後一個問題。抱歉,我得讓你離開了。我記得有一次會議,我想你和亞卡(Yaka)在這個問題上意見比較一致,但我肯定記得你的觀點,關於誰該為一個項目獲得署名,你似乎持有一種觀點,即人們對此有點過於著迷了。而且,顯然,人工智慧的根源在於學術界,在那裡,如果有一篇論文發表了,你會感到非常自豪,這是一件大事,而署名是一件極其重要的事情。我想我記得那次會議中你的立場是正確的。那又怎樣?我們已經到了一個新的階段,在那裡,這一點就不那麼重要了,或者說,這只是一家公司,誰做了什麼變得不那麼重要了。Mark Chen: 我其實非常喜歡這個話題。我認為,對功勞的過度關注是一件非常糟糕的事情,我想,但另一方面,我實際上覺得,作為一家公司,我們必須在內部和外部都認可功勞,這很重要。很多公司實際上都迴避了這一點。我認為整個行業都已不再熱衷於發表論文、署名名單了。但是雅各布(Yaakov)和我最終決定要在 OpenAI 這樣做。當然,反駁的聲音總是說,老兄,你這簡直是把你的頂尖人才拱手相讓,其他人都會積極地招募這些人。但我認為那不重要,我們應該認可那些做出出色工作的人。我們應該繼續成為培養人工智慧超級巨星的輸送管道。而且說實話,對我們來說,讓那些在公司裡做出最出色工作的人獲得名聲是很重要的。但你似乎也在說,研究人員個人或許應該少關注這一點,或者是我完全記錯了?我……我認為房間裡確實有一種那樣的情緒,其實雅各布和我對此持更反對的觀點。已經有一段時間了,在我的筆記裡。但我認為我們必須給予認可,即使冒著讓所有人都知道我們頂尖人才的風險。我將發表一個更強烈的聲明。主持人: 我認為 OpenAI 是人均獲得外部認可度最高的地方。Mark Chen: 好的。好的。主持人: 我要合上我的筆記了。現在我有更多內容了。絕對的。絕對的。我只記得自己是討論的話題,而且有很多不同的意見。所以這很有趣。在那件事上,我撒謊了。最後一個問題,我發誓。你在2018年到了那裡。那是一家研究公司。那是一家非營利組織。這家公司創立之初,創始人就希望成為Google的制衡力量,目標就是確保通用人工智慧(AGI)安全地到來。你從高頻交易領域接觸到這個,並看到了正在發生的有趣的事情,比如在你的職業生涯中——我確定你會說你希望這件事安全發生,我理解——但是如果你看看你的職業道路,你是一個聰明、好奇的人,看到了這個有趣的事情正在發生,這並不是一個要求你必須在哲學層面上非常關心這件事,或者希望看到一個超級智能。但不管怎樣,讓我們聽聽你最初為什麼做這個。我想,實際上是在安全和對齊方面。結語:對齊、安全與黑匣子問題Mark Chen: 我也在OpenAI管理過對齊團隊。我真誠地覺得未來一到兩年內的一些重大挑戰是關於對齊問題的。而且我認為,對於廣泛關注該領域研究的群體來說,OpenAI 在過去一年中可能做得最好的工作。我這麼說是因為出現了很多關於例如“詭計”(scheming)方面的工作,你向模型投入的強化學習(RL)算力越多,你就越能衡量諸如自我意識、自我保護,甚至模型可能耍花招(scheme)的情況。這很可怕,因為模型最後可能會給你一個正確的答案,你期望的答案,但它是通過一種非常扭曲的方式得出的,我認為隨著模型為我們完成更複雜的任務,掌控它的思維過程將變得極其、極其重要。主持人: 好的。聊天機器人(ChatGPT)讓我問你一個與此非常相關的問題,那就是,你正在談論一個領域——機械可解釋性(mechanistic interpretability),在這個領域中,我們正試圖,這是一個捕捉我們試圖理解這個黑匣子及其運作方式的術語。我猜問題的核心是,我們做這件事的技能是否跟得上人工智慧系統的複雜性,還是我們只會到達一個失控的點?Mark Chen: 我們好像永遠也學不會這個東西是如何運作的,所以我想我們做出的一個可以追溯到01年發佈時的決定,我為此感到非常自豪,就是我們決定不干預模型的思考過程。我想,當你給模型設定激勵,讓它給出的思考過程對人類很有吸引力時,它不一定會對你誠實,它不會告訴你它真實的想法和意圖。因此,通過這個管道,我們實際上能夠持續觀察模型的思考過程,將其視為理解對齊(alignment)的一個工具。而且,就在幾個月前,深度思維(DeepMind)和安智(Anthropic)發表了一篇論文,探討了隨著時間的推移,這種情況將如何發展。我想我們在設計方面做出了很多相當不錯的選擇。Mark Chen: 我真的很擔心未來世界的某個時刻,模型會告訴我們一些極其令人信服的事情,但我們無法確定模型是否與我們保持一致,對吧,是否與我們的價值觀保持一致。所以我認為這裡有很多有趣的方向。比如,你能設定一些博弈(games)嗎?或者你能設定一些框架或環境,讓模型相互監督,或者它們以某種方式共同演化嗎?或者唯一的穩定平衡點是模型誠實的那種情況。我認為那裡的工作非常令人興奮。主持人: 好的。我現在會表現得乖一點。非常感謝您加入我們。我很高興我已經夠老了,不用再接受像那種超級聰明的聊天機器人的工作面試了,那種我感覺你無法通過討好和胡說八道來矇混過關的。Mark Chen:  你會做得很好的。主持人: 我不知道,夥計。我不知道。我覺得還行,我已經夠老了,可能不用做那種事了。馬克,非常感謝你。我知道你非常忙,所以感謝你抽出時間。也非常感謝您抽出時間。夥計,這很有趣。非常榮幸。Mark Chen:  夥計,這很有趣。非常榮幸。 (Web3天空之城)
OpenAI首席架構師與科學家專訪:關於GPT-5、自動化研究與未來圖景
為了揭示其最新旗艦模型GPT-5背後的戰略思考,以及支撐其持續創新的獨特研究文化,OpenAI的兩位核心大腦——首席科學家雅各布·帕喬基(Jakub Pachocki)與首席研究官馬克·陳(Mark Chen),接受了a16z 的普通合夥人Anjney Midha 和Sarah Wang最新獨家訪談。在這場對話中,帕喬基和陳不僅闡述了GPT-5致力於將“推理”能力主流化的核心使命,更首次系統性地披露了OpenAI的終極研究目標——創造一個“自動化的研究員”,以實現科學發現的自動化。他們坦誠地探討了傳統評估基準飽和後的新挑戰,分享了OpenAI在人才招募、組織文化建設以及平衡基礎研究與產品開發方面的獨特策略。核心觀點:GPT-5的核心使命: 將模型的「推理」能力從專業領域推廣到主流應用,讓AI預設具備更強的思考和代理行為能力。終極研究目標: 製造一個“自動化的研究員”,實現新想法和科學發現的自動化,並最終自動化機器學習研究本身。超越傳統評估基準: 傳統基準已近飽和,未來的評估重點將轉向模型在數學、程式設計競賽等真實世界指標上的表現,以及在經濟相關領域做出實際發現的能力。OpenAI的研究文化: 文化核心是保育基礎研究,鼓勵研究者著眼長遠,專注於發現深度學習的新事物,而非追趕短期競爭。編碼新範式已經到來: 對於新一代的開發者而言,預設的編碼方式已經是“氛圍編碼(vibe coding)”,即透過與AI協作來完成程式設計任務。不變的約束: 算力永遠是稀缺資源,物理世界的約束(如能源)將是未來AI發展的重要考量。GPT-5的核心使命:將「推理」能力主流化在過OpenAI的模型矩陣中存在著一個使用者體驗上的割裂:以GPT-4為代表的「即時回應」模型,和以O系列為代表的「長時思考」模型。而GPT-5的誕生,正是為了終結這種分裂,將強大的「推理」能力作為一項預設組態,提供給所有使用者。馬克·陳解釋了這一戰略背後的思考:“在策略上,我們不希望我們的使用者對,我應該使用哪種模式感到困惑?……我們認為未來是關於越來越多地推理,越來越多地關於智能代理。而且,我們認為GPT-5是朝著默認提供推理和更具代理行為能力的方向邁出的一步。”這意味著,GPT-5不僅是性能的線性提升,更是一次產品哲學的根本性轉變。它旨在智能地判斷使用者請求所需的“思考量”,從而無縫地融合快速回覆與深度推理,讓強大的代理行為能力成為AI服務的基礎設施,而不是一個需要使用者手動選擇的高級選項。雅各布·帕喬基補充道,“相對於O3,以及我們之前的模型,這個模型在各個方面也有許多改進。但是我們主要的,這次發佈的論點確實是將推理帶給更多的人。”在內部測試中,GPT-5的能力已經讓專業領域的頂尖人才感到驚訝。馬克陳分享道:“我們會讓模型和我們的一些朋友一起嘗試,他們是專業的物理學家或專業的數學家……他們嘗試GPT-5 Pro,然後說,哇,這是之前的模型版本無法做到的。這對他們來說是一個靈光一閃的時刻。”超越飽和基準:衡量「真實發現」的新標尺隨著模型能力的指數級增長,一個嚴峻的問題擺在了所有AI研究者面前:傳統的評估基準正在迅速飽和。當模型在各項測驗中的得分從98%提升到99%時,這種微小的增益已不再能真實反映其能力的本質飛躍。帕喬基坦言,OpenAI正面臨「偉大評估的赤字」。他指出,隨著強化學習等新訓練方法的引入,模型可以在特定領域達到極高的專業水平,但這並不總是能泛化到其他任務。因此,評估體系必須進化。未來的評估重心將從標準測驗轉向衡量模型在真實世界中的「發現」能力。帕喬基明確表示:“我認為我們關注的重點是模型能夠發現新事物的實際標誌。我認為對我來說,今年最令人興奮的趨勢,以及實際的進步跡象,是我們的模型在數學和程式設計競賽中的表現……我們正在關注的下一組評估和里程碑將涉及實際的,發現,以及實際的,在經濟上相關的……事情的進展。”馬克陳對此表示贊同,他認為像國際數學奧林匹克(IMO)、AtCoder程式設計競賽等,是“未來研究成功的真實世界指標”,因為世界上許多頂尖的研究人員都曾在這些競賽中嶄露頭角。讓模型在這些領域取得突破,是通往真正創新的必經之路。終極研究目標:打造“自動化的研究員”在訪談中,帕喬基首次系統性地揭示了OpenAI研究計畫的“終極目標狀態”,一個貫穿其所有研究工作的宏大願景。「因此,我們研究的主要目標是生產,一個自動化的研究員。因此,自動化新想法的發現。」他解釋說,這個目標的一個具體體現,就是自動化機器學習研究本身,但這可能會顯得過於「自我參照」。因此,他們也正在積極探索如何自動化其他科學領域的進展,例如物理學、數學等。衡量這項進展的關鍵指標,是模型能夠獨立思考和解決問題的時間跨度。帕-喬-基認為,目前模型在程式設計競賽等領域的表現,相當於「大約1到5個小時的推理程度」。而OpenAI的下一個核心研究方向,就是「擴展這個時間範圍,包括模型在非常長的時間範圍內進行規劃的能力,以及實際保留記憶的能力。」 這意味著,未來的AI不僅要更聰明,更要具備長期的專注力、記憶力和專案管理能力,才能從解決「習題」真正跨越到進行「研究」。OpenAI的研究文化:保護基礎研究與招募“穴居人”要實現如此宏大的目標,離不開一個獨特的、能夠抵禦外界噪音的研究文化。在當今AI領域競爭白熱化的背景下,各大實驗室很容易陷入追趕彼此最新發佈的短期競賽。而OpenAI的領導者們,則將「保護基礎研究」視為其文化的核心。馬克陳強調:“我認為實際上最重要的是確保你保護基礎研究……你不能讓他們被拉向所有這些不同的產品方向。”帕喬基也補充道,他們的工作很大一部分是確保研究人員有足夠的空間和舒適感去思考“一年或兩年後事情實際上會是什麼樣子?”,而不是僅僅在當前範式中進行迭代改進。這種對長遠目標的堅定信念,使得OpenAI能夠持續在前沿領域進行創新。“我們真的不喜歡抄襲,”帕喬基說,“我認為人們會受到這個使命的鼓舞,你們實際上是在發現關於深度學習堆棧的新事物。”在人才招募方面,OpenAI同樣有著與眾不同的標準。他們不只關注那些在社群媒體上聲名顯赫或發表了引人注目論文的研究者,而是更傾向於尋找那些能夠解決難題的「穴居人(cave dwellers)」——即那​​些在幕後默默進行深度工作的人。帕喬基解釋說:「我們尋找的一個東西是,在任何領域都解決過難題。我們許多最成功的研究人員,他們的深度學習之旅始於OpenAI,並且在其他領域工作過,比如,物理學,或者……金融。」 紮實的技術基礎、挑戰雄心勃勃問題的渴望,以及最重要的——堅持(persistence),是OpenAI最看重的品質。編碼新範式:從競技程式設計到“氛圍編碼”身為兩位曾經的競技程式設計師,帕喬基和陳對AI編碼模型的發展感觸尤深。他們坦言,如今的程式設計模型在許多方面已經超越了他們自身的能力,而這正在催生一種全新的程式設計範式。馬克陳分享了一個有趣的觀察:“上週末我和一些高中生聊天,他們說,實際上默認的編碼方式是憑感覺編碼(vibe coding)。”對於新一代的開發者來說,從頭開始編寫所有代碼機制已經成為一個“奇怪的概念”,他們默認的工作流就是與AI進行高效協作。陳甚至憧憬道:“我確實認為,未來有希望會是氛圍研究(vibe research)。”儘管AI編碼工具已經變得異常強大,帕喬基認為,目前仍處於一個「恐怖谷(uncanny valley)」階段。他解釋說,雖然GPT-5已經能夠“在15分鐘內幾乎完美地完成一個30個檔案的重構”,你必須使用它,但它在互動體驗上仍然不如一個真正的人類同事。因此,OpenAI的首要任務之一,就是帶領編碼工具走出這個恐怖谷,使其成為更無縫、更聰明的合作夥伴。不變的約束:算力、物理與研究的邊界在討論AI未來的無限可能性時,兩位科學家也不斷強調那些「不變的限制」。對於近年來業界流傳的「算力不再是瓶頸,數據才是」的說法,帕喬-基和陳都給出了堅決的否定。「我並沒有太相信『我們將受到數據限制』的說法,」帕喬基說,「我不希望這種情況發生改變。」馬克陳則用一句玩笑強調了算力的極端稀缺性:「任何說那種話的人都應該來我的崗位上乾一週。沒有人會說,我擁有我需要的所有計算能力。」除了算力,帕喬基認為,更底層的約束來自於物理世界。“我認為比算力更廣泛的是物理約束,例如能源,而且在不遠的將來,機器人技術將成為一個主要焦點。所以思考物理約束將仍然很重要。”結語:信任是持續創新的驅動力在訪談的最後,話題回到了一個更深層的、關於人的問題:是什麼讓OpenAI在達到如此規模後,依然能維持新創公司般的創新速度?馬克陳認為,秘訣在於其獨特的科研文化,讓身處其中的人永遠不會感到「學習高原期」。 “你每週都在學到很多東西……如果你產生的研究成果多到你幾乎無法掌握它們,這幾乎是一件好事。”而這種文化的基石,則是核心團隊之間深厚的信任。帕喬基與陳之間長達多年的默契合作與相互信賴,已成為Open-AI內部文化的象徵。正如歷史上許多偉大的科學發現都誕生於一對緊密的合作者一樣,他們的夥伴關係,或許正是驅動這個全球最頂尖AI實驗室不斷突破邊界的、最人性化的引擎。天空之城全文整理版引言:GPT-5與研究文化Jakub: 我們所針對的重大目標是製造一個自動化的研究員。因此,自動化新想法的發現,我們正在關注的下一組評估和里程碑將涉及在具有經濟相關性的事物上的實際進展。Mark Chen: 我在和一些高中生交談,他們說,實際上預設的編碼方式是氛圍編碼。我確實認為,未來有望是氛圍研究。Anjney: 感謝雅各和馬克的光臨。雅各布,你是OpenAI的首席科學家。馬克,你是OpenAI的首席研究官,你們都擁有營運可能是在人工智慧領域最受矚目的研究團隊之一的特權和壓力。所以我們非常興奮,想和你們談談我們一直好奇的一系列事情,包括GPT 5,這是OpenAI最近發布的最令人興奮的更新之一。然後退一步說,你們如何建立一個不僅能做GPT 5,還能做Codex和ChatGPT以及一個API業務的研究團隊,並且可以將你們在各種模態、各種產品形態上的許多不同押注,編織成一個連貫的研究文化和故事。那麼,為了啟動討論,我們不如從GPT 5開始吧?從你們的角度,簡單談談GPT 5的發布,情況如何?Mark Chen: 我認為GPT 5 確實是我們嘗試將推理帶入主流的努力。而且,在GPT 5之前,對吧,我們有兩個不同的模型系列。你有,GPT類型的二、三、四系列,它們是這個即時反應模型。然後我們有一個O系列,它,本質上會思考很長時間,然後給你它能給出的最佳答案。所以在策略上,我們不希望我們的用戶對,我應該使用哪種模式感到困惑?這涉及到大量的研究,以及確定對於任何特定提示來說,正確的思考量應該是什麼樣的,並且,消除用戶這方面的痛苦。所以我們認為未來是關於越來越多地推理,越來越多地關於智能代理。而且,我們認為GPT 5是朝著預設提供推理和更具代理行為能力的方向邁出的一步。Jakub: 相對於O3,以及我們先前的模型,這個模型在各方面也有許多改進。但是我們主要的,我們主要的,這次發布的論點確實是將推理帶給更多的人。評估的演進:從飽和基準到真實發現Sara Wang: 你能多談談你們是如何看待評估的嗎?我注意到即使在那個發布影片中,也有一些評估顯示你的表現從,98%逐漸提升到99%,而這某種程度上表明,你已經飽和了評估。你們採取什麼方法來衡量進展?你們又是如何看待這個問題的呢?Jakub: 一件事是,確實對於像我們過去幾年使用的這些評估來說,它們確實非常接近飽和。所以,例如,對它們中的很多來說,例如,從96%提升到98%不一定是,世界上最重要的事情。我認為另一件可能更重要的事情,但當我們處於GPT-2、GPT-3、GPT-4時代時,它稍微有點微妙,有一種方法。你只需要在大量資料上預先訓練一個模型,然後你就可以使用這些,評估作為一種衡量標準,衡量它如何泛化到不同的任務。現在我們有了,不同的訓練方式,特別是,在嚴肅推理上進行強化學習,我們可以選擇一個領域,我們可以真正訓練一個模型,使其成為該領域的專家,從而對它進行深入推理,這讓我們,能夠針對特定的,類型的,的,的,任務,這意味著,比如,我們可以在一些評估中獲得極好的表現,但它並不表明其他事情可以很好地泛化到其他事情。我覺得,我們在這個世界裡思考問題的方式,我們確實覺得有點我們有點,赤字,例如,關於偉大評估的赤字。我認為我們關注的重點是模型能夠發現新事物的實際標誌。我認為對我來說,今年最令人興奮的趨勢,以及實際的進步跡象,是我們的模型在數學和程式設計競賽中的表現。雖然我認為它們在某種意義上也變得飽和了,我們正在關注的下一組評估和里程碑將涉及實際的,發現,以及實際的,在經濟上相關的,關於事情的進展。Sara Wang: 完全正確。你們已經在AtCoder競賽中獲得了第二名。所以只剩下一個,只剩下第一名了。Mark Chen: 我認為重要的是要注意,這些評估,例如,IOI,AtCoder,IMO,實際上是未來研究成功的真實世界指標。我認為很多,世界上最好的研究人員都參加過這些比賽,並且取得了非常好的成績。我認為我們正在為這個前沿做準備,我們正試圖讓我們的模型發現新的事物。Sara Wang: 非常激動人心。GPT-5的驚喜時刻與長期願景Anjney: 在發布之前,當您在評估基準測試中工作或在內部使用GPT-5 時,哪項能力最令您驚訝?是否有那麼一些時刻,您覺得它開始足夠好,可以發布了,因為它在您的日常使用中很有用?Mark Chen: 我認為對我來說,一件大事是,它在非常困難的科學領域推動了前沿發展。我們會讓模型和我們的一些朋友一起嘗試,他們是,專業的物理學家或專業的數學家。而且你已經在推特上看到了一些這樣的例子,你可以拿出一個問題,讓它發現,也許不是非常複雜的新數學,但是,一些非同尋常的新數學,而且,我們,我們看到物理學家、數學家不斷地重複這種體驗,他們嘗試GPT-5 Pro,然後說,哇,這是之前的模型版本無法做到的。這對他們來說是一個靈光一閃的時刻。這就能夠自動化也許需要他們一個學生花幾個月才能完成的事情。Jakub: GPT-5 是O3 的一個,一個明顯的改進。對我來說,O3 絕對是推理模型變得在日常生活中真正非常有用的時刻,特別是對於,處理數學,公式或,或推導,比如它們,它實際上達到了一個相當值得信賴的水平,而且我實際上可以把它當作一個工具,用於我的工作。到達那一刻非常令人興奮。但我期望,正如我們所看到的,這些模型,例如實際上能夠自動化,例如我們所說的,解決更長時間範圍內的上下文問題。我期望那與未來一年內即將發生的事情相比,是很小的。Anjney: 未來一到五年內會發生什麼事?就在你,你覺得可以分享的任何程度。研究路線圖是什麼樣的?Jakub: 因此,我們研究的主要目標是生產,一個自動化的研究員。因此,自動化新想法的發現。當然,我們經常考慮的一個特定事情是自動化我們自己的,自己的工作,自動化機器學習研究。但這可能會變得有點自我參照。所以我們也正在考慮自動化其他科學領域的進展。而且我認為衡量進展的一個好方法是觀察這些模型實際上能夠推理和取得進展的時間範圍。因此,現在當我們達到接近精通這種高中競賽的程度時,我想說我們達到了大約1到5個小時的推理程度。所以我們專注於擴展這個時間範圍,包括模型在非常長的時間範圍內進行規劃的能力,以及實際保留記憶的能力。Mark Chen: 回到評估的問題。這就是為什麼我認為評估的形式,例如這個模型自主運作的時間有多長,對我們特別有意義。代理、推理與開放式問題Sara Wang: 實際上,也許在這個主題上,出現了一種趨向於代理和模型開發的巨大趨勢,但我認為至少就目前的狀態而言,用戶已經觀察到這種權衡,即太多的工具或規劃步驟可能導致質量下降,而相比之下,代理性稍差的東西。至少從今天觀察到的情況來看,品質會更高一些。你們如何看待穩定性和深度之間的權衡?模型執行的步驟越多,第10步的準確性可能就越低,而不是讓你只做一件事。它可以做得非常好。讓它把這一件事做得越來越好,但更複雜的事情就會有某種權衡。但當然,要實現完全自主,你需要採取多個步驟。你正在使用多種工具。Jakub: 我認為實際上,保持深度的能力很大程度上是在漫長的過程中保持一致。所以,我認為這些都是非常相關的問題。事實上,我認為對於推理模型,我們已經看到這些模型大大地擴展了它們能夠推理、工作並可靠地進行下而不會偏離軌道的時間長度。我認為這將仍然是我們關注的重要領域。Mark Chen: 而且我認為推理是長期運作能力的核心,因為,你可以想像自己解決一道數學題,你嘗試一種方法,但它行不通。你必須思考,下一步我將採取什麼方法,第一種方法有哪些錯誤,然後你嘗試另一種方法。世界會給你一些嚴厲的回饋,然後你不斷嘗試不同的方法,並且長期堅持這樣做,這種能力就是推理,它賦予智能體那種穩健性。Sara Wang: 我們談了很多關於數學和科學的內容。我想知道你對這個問題的看法,你是否認為我們取得的一些進展實際上可以類似地擴展到那些不太容易驗證的領域,那些不那麼明確地有對錯之分的領域?Jakub: 這是我非常喜歡的問題。我認為如果你真的想擴展到研究領域,並且,找到、發現那些在數月或數年的時間尺度上對技術產生有意義的推進的想法,我認為這些問題就不再那麼不同了,就像解決一個在小時尺度上非常明確、受到良好約束的問題是一回事,並且你需要搜尋的想法數量是有限的。這可能與解決非常開放式的問題感覺截然不同。但即使你想解決一個定義非常明確,但規模更長遠的問題,對吧。比如,證明千禧年大獎難題。那突然就需要你思考,好吧,哪些數學或其他科學領域可能相關?有沒有我必須借鏡的來自物理學的靈感?speaker_5: 比如,我想圍繞這個問題開展的整個專案是什麼?Jakub: 現在這些變成了非常開放式的問題,而且實際上很難,對於我們自己的研究來說,比如,如果我們只關心,減少給定數據集上的建模子句,比如,衡量這方面的進展,比如,我們是否實際上在研究中提出了正確的問題?比如,實際上變成了一個相當開放的事情。Mark Chen: 我認為考慮開放式的含義的界限是什麼也是有意義的,我認為之前一段時間山姆發推特說了我們在改進模型,讓它們更具創造力,我們也會考慮極端情況。Sara Wang: 對。對。強化學習的持續驚喜Anjney: 讓我們來談談強化學習(RL),因為自從O1發布以來,強化學習似乎一直是一份驚喜不斷的禮物。每隔幾個月,OpenAI就會發布一個版本,然後每個人都會說,太棒了。但這個強化學習的東西總是會達到瓶頸。我們將會使評估飽和。模型將無法泛化,或者會因為過多的合成數據而發生模式崩潰,不管怎樣,每個人都有一大堆理由相信強化學習帶來的性能提升將會耗盡,但不知何故,它們就是沒有,你們總是不斷地推出持續的改進。為什麼強化學習效果這麼好?如果有什麼讓你驚訝的,那是什麼?它工作得如此出色,有什麼讓你感到驚訝嗎?Jakub: 強化學習是一種非常通用的方法,而且一旦你有一個可用的強化學習系統,你可以探索很多想法。在OpenAI很長一段時間,我們在語言模型之前就開始研究這個,就像我們在思考,好吧。就像強化學習是非常強大的東西,當然,在深度學習之上,而深度學習是一種非常通用的學習方法。但我們長期以來都在努力解決的問題是,環境是什麼?例如,我們如何真正將這些模型錨定到現實世界?或者,我們是否應該,模擬某個島嶼,在那裡他們都學會合作和競爭。然後,當然就出現了,語言建模的突破,我們看到,好吧,如果我們,如果我們,如果我們擴展深度學習來建模自然語言,我們可以創建對人類語言有著極其細緻理解的模型。所以從那時起,我們一直在,一直在,尋求如何結合這些範例,以及如何讓我們的強化學習在自然語言上運作。一旦你這麼做了,對吧,那樣你就有能力,實際上,去執行,在,在,在這些不同的想法和目標上,在這個非常,健壯,豐富的環境中,由預訓練提供。所以,所以這是一個,這是一個,這是一個真正的,我認為這可能是我們過去幾年研究中最激動人心的時期,我們真的,我們發現瞭如此多的新方向和有希望的想法,這些想法似乎都在奏效,並且,並且,並且,並且我們正在努力,理解如何比較。Anjney: 對於那些不是強化學習從業者的人來說,強化學習最困難的事情之一就是建立正確的獎勵模型的想法。因此,特別是如果你是一家企業或公司,想要利用你們所取得的所有驚人進展,但甚至不知道從哪裡開始,那麼對於這樣一家公司來說,未來幾年會是什麼樣子的?對於試圖理解強化學習以建立正確的獎勵模型的人來說,什麼是正確的思考模式?關於最佳實踐或思考方法,關於使用最新的,推理技術系列,你有什麼瞭解嗎?身為生物學家或物理學家,我應該如何思考,甚至​​是如何處理獎勵建模的?Jakub: 我預期這種情況會發展得非常迅速。我預期它會變得更簡單,我想,大概兩年前我們還在討論,怎樣才是建立我的微調資料集的正確方法?而且我認為我們還沒有到達那個演變的終點。而且我認為我們會逐漸接近更像人類的學習方式,強化學習(RL)仍然不太像。所以我想,我認為最重要的心態是不要假設現在的情況會永遠持續下去。編碼新範式:從競技程式設計到氛圍編碼Sara Wang: 所以我想把話題轉回編碼上。如果不祝賀GPT-5 Codex,我們就太疏忽了,它今天剛發布。你們能詳細說說它有什麼不同嗎?它是如何以不同的方式訓練的?也許說說你們為什麼對它感到興奮。Mark Chen: 所以Codex團隊的一個主要重點是,利用我們從推理模型中獲得的原始智能,使其對現實世界的編碼非常有用。所以,他們所做的許多工作與此基本一致。他們正在努力使模型能夠處理更困難的環境。我們知道現實世界的編碼非常混亂。所以他們試圖處理那裡的所有複雜性。有很多編碼與風格有關,就像一些比較柔性的東西,例如模型有多主動,有多懶惰。並且能夠定義,在某種意義上,例如一個,一個關於編碼模型應該如何運作的規範。他們在那裡做了很多,非常紮實的工作。而且正如你所看到的,就他們也在研究更好的預設,程式設計師,他們對我要等多久有一些概念。我願意等待一個特定的解決方案。我認為我們已經做了很多工作來調整,對於簡單的問題。低延遲更適合解決難題。Jakub: 實際上,更合適的做法是進一步提高延遲,從而為你提供真正最佳的解決方案,而且只需找到那個預設值,也就是難題與易題之間的最佳平衡點。我們發現,上一代的Codex模型花費在解決最難題上的時間太少,而花費在解決簡單問題上的時間太多。Sara Wang: 這可能就是開箱即用的O3所能提供的。既然你們兩位之前都是競技程式設計師,那就來聊聊程式設計這個主題。我知道你已經在OpenAI工作了將近十年,但我被李世乭的故事所震撼,這位圍棋棋手在多次輸給AlphaGo後,最終選擇了退出圍棋界。我想在最近的一次訪談中,你們都表示現在的編碼模型比你們的能力更強,這讓你們感到興奮,請詳細談談這一點。那麼,你們現在還會寫多少程式碼呢?如果你們親自動手寫程式碼,可以泛泛地談談OpenAI,但現在有多少程式碼是由人工智慧寫的?Jakub: 編碼模型變得更好是指什麼?我是說,我認為看到這種進步非常令人興奮。我認為像程式設計競賽這樣,對產生新想法的能力進行了一種很好的封裝測試,而且,在這種類似盒裝的,環境和時間框架內,我的確認為,如果你看看類似,好吧,我想國際數學奧林匹克(IMO)的第六題,或者,或者可能,一些非常難的編程競賽題,我認為模型在這方面還有一點空間,但我預計這方面還有一點空間,但我預計這種情況不會持續太久。我確實參與了一點。歷史上我一直像……他很謙虛。歷史上,我其實一直非常不情願使用任何工具。我只是很大程度上使用了它們。最終尤其是在,最新的編碼工具,像GPT-5,我真的感覺,好吧,這不再是我喜歡的方式,例如,你可以做一個,30個檔案的重構,幾乎可以在15分鐘內完美完成。你必須得用它。所以我一直在,我一直在學習這種新的編碼方式,感覺確實有點不同。我認為它現在仍然有點像恐怖谷,因為你有點不得不使用它,因為它令人興奮地簡化了很多事情,但它仍然有點不如,不如,不如同事好。所以,我認為我們的首要任務是擺脫那個恐怖谷,但是,這絕對是一個有趣的時代。Sara Wang: 當然。Mark Chen: 為了稍微談談重新安置的時刻。我認為AlphaGo對我們兩人來說,都是人工智慧發展中一個非常有意義的里程碑。至少對我來說,這就是我最初開始從事這項工作的原因。也許部分原因是我們在競技程式設計方面的背景,例如我喜歡建立這些模型,這些模型可以在這些競賽形式中表現得非常好,從,解決八年級的數學問題,到一年後,達到我們在這些編碼競賽中的表現水平。看到這種進步真是太瘋狂了。而且,你有點想像或喜歡認為你感受到了一系列至少它都感受到的感覺,對吧。就哇,這真是太瘋狂了。對。那麼,有哪些可能性呢?而且,我花了數十年的時間來做這件事,而且,付出了很多努力才走到前線。所以你真的感覺到這意味著這些模型,有什麼是它們做不到的?對。而且我確實覺得它已經改變了編碼的預設方式。上週末我和一些高中生聊天,他們說,實際上預設的編碼方式是憑感覺編碼。就我想他們會認為,就像也許有時候為了完整性,你會去真正從頭開始完成所有的編碼機制。但這對他們來說只是一個奇怪的概念。就你為什麼要那樣做?你預設就憑感覺編碼。所以,我確實認為,未來有希望會是氛圍研究。偉大研究者的特質Anjney: 我有一個關於這個問題的問題,是什麼造就了一位偉大的研究者,當你說氛圍研究時,氛圍編碼的一個重要部分就是對創造對世界有用且有趣的東西抱有良好的品味。而且我認為像Codex這樣的工具最棒的地方在於,如果你對人們想要什麼有很好的直覺,它能幫助你表達出來,然後基本上非常快速地實現一個原型。對研究來說,什麼是,什麼是類似物,什麼,什麼造就了一個偉大的研究者?Jakub: 堅持,是一個,是一個非常關鍵的特質,就當你真正嘗試去做的時候,研究有什麼不同,我認為研究的特別之處是什麼,是你試圖創造一些東西,或者,或者學習一些尚不為人知的東西,就像它是否奏效是未知的,就像你不知道它是否會奏效。所以總是嘗試一些最有可能失敗的事情。我認為達到一種狀態,即你的心態是準備好失敗,並準備好從這些失敗中學習。而且,所以,而且,當然隨之而來的是創造某種清晰的假設,並且對自己在這方面的表現極其誠實。對。我認為許多人掉入的陷阱是竭盡全力去證明它是有效的。對。這與相信你的想法並認為它極為重要是截然不同的。對。而且你想堅持,堅持下但是你必須對自己誠實,關於它何時有效,何時無效,這樣你才能學習和調整。Mark Chen: 我認為經驗是沒有什麼捷徑的。我認為透過經驗,你會學到,思考問題的正確視角是什麼,但你不能選擇太難的事情,或做太容易的事情會讓你不滿意。我認為很多研究是在很長一段時間內管理你自己的情緒,因為,你嘗試了很多事情,但它們不會奏效。而且有時候,你需要知道何時該堅持或有時候需要轉換到不同的問題。我認為趣味性是某種東西,你可以透過閱讀優秀的論文,與你的同事交談來獲得,然後你可能會將他們的經驗提煉到你自己的過程中。Anjney: 當我在研究所的時候,很大一部分,我是一個失敗的機器學習研究員。我在研究所研究生物資訊學,但我研究顧問的一個主要目標是選擇正確的問題來研究,這樣你就可以在困難時期堅持下去。你說了一些有趣的事情,那就是對一個想法有信念和最大限度地尋求真相之間存在差異,但當它不起作用時,這些東西可能會,或者有時是意圖,因為你有時會對一個你深信不疑的主題或問題產生歸屬感。你有沒有發現,在品味階段,在問題選擇階段,有什麼有用的啟發式方法可以幫助你找到正確的問題集,在這種問題集中,信念和尋求真相不像其他類型的問題那樣處於零和緊張關係中?Jakub: 需要澄清的是,我不認為信念和尋求真理之間真的存在零和緊張關係。我認為你可以這樣,你可以被說服,或者,你可以對某個想法抱持著很大的信念,而且你可以,非常堅持它,即使它行不通。我認為重要的是,你對自己誠實,例如,你取得了多少進展,並且你處於一種能夠從一路上的失敗中學習的心態。我認為重要的是尋找你真正關心並且真正相信是重要的問題。所以,我認為我在許多激勵我的研究人員身上觀察到的一件事是,他們真正地追求難題,例如研究那些廣為人知,但實際上並沒有被認為是容易解決的問題,並問,為什麼它們不容易解決?或者,關於這種方法,有什麼問題?比如,為什麼這種方法會失敗?我認為你總是想著下一步真正的障礙是什麼。如果你正在研究你真正相信是重要的問題,那麼,這會讓你更容易找到堅持數年的動力。Anjney: 在GPT-5的重新訓練階段的開發過程中,例如,在任何存在難題的時刻,最初嘗試解決該問題的方法都不奏效,但你發現有人堅持了下來。在那些故事中,讓你覺得有效,你希望其他人和其他研究人員能多做的,是什麼呢?Jakub:我認為在整個過程中,例如沿著模型的序列,包括預訓練模型和研究模型,我認為一個非常常見的主題是,bug,既有軟體中的愚蠢的bug,這些bug可能會在你的軟體中存在幾個月,並在某種程度上使你所有的實驗都失效,而你卻不知道,識別出這些bug非常有意義的突破,也有那種意義上的bug,例如,你有一種特定的思考方式,而這種方式有點偏差,導致你做出錯誤的假設,識別出這些錯誤的假設,從頭開始重新思考,無論是讓第一個推理模型工作,還是讓更大的預訓練模型工作,我認為我們遇到了很多這樣的問題,我們必須努力解決。打造致勝的研究文化Sara Wang: 身為研究機構的領導者,您如何看待留住團隊中最優秀人才,以及另一方面,如何創建一個非常有韌性的組織,即使關鍵人物離開也不會崩潰?Mark Chen: OpenAI在保持最優秀人才的積極性和興奮度方面最大的優勢在於,我們從事的是基礎研究,我們不是那種環顧四週,然後說,X公司先構建了什麼模型,或者Y公司構建了什麼模型的公司。我們對我們想要建造的東西有一個相當清晰和明確的定義。我們喜歡在前沿領域創新。Jakub: 我們真的不喜歡抄襲,而且,我認為人們會受到這個使命的鼓舞,你們實際上是在發現關於深度學習堆疊的新事物。而且,而且,我認為我們正在一起建立一些非常令人興奮的東西。Mark Chen: 我認為除此之外,很大程度是創造良好的文化。所以我們希望有一個好的管道來培養人們成為非常優秀的研究人員。我們,我認為從歷史上看,我們僱用了,最優秀和最具創新精神的人才。所以我只是認為,我們也有非常深厚的人才儲備。而且,我認為我們的大部分領導者都受到使命的極大鼓舞,這就是讓他們所有人留在那裡的原因,就像我審視我的直屬下屬時,他們並沒有受到人才爭奪戰的影響。Sara Wang: 我最近和一位研究員聊天,他談到想找到「穴居人」。這些人通常是不在社群媒體上發布他們的工作的人。無論出於何種原因,他們甚至可能沒有發表作品。Jakub: 他們有點像在幕後做著工作。Sara Wang: 我不知道你是否同意這個概念,但你們是如何招募研究人員的?是否有任何非顯而易見的方式來尋找人才,或者,你們尋找的非顯而易見的特質是什麼?Jakub: 所以我認為我們尋找的一個東西是,在任何領域都解決過難題。我們許多最成功的研究人員,他們的深度學習之旅始於OpenAI,並且在其他領域工作過,例如,物理學,或者,電腦科學,電腦科學或金融,在過去。紮實的​​技術基礎,再加上有能力,想要從事非常雄心勃勃的問題,並真正堅持下去。我們不只是尋找,誰做了最引人注目的工作,或者,或者,或者在社交媒體上最引人注目,或者,Anjney: 當你說話的時候,我在回想我作為創辦人的時候,當時我在經營自己的公司,我們會招募優秀的工程師人才。你所描述的許多特質都是我當時一直在考慮的。埃隆最近發推文說,他認為整個研究員與工程師的區分是很愚蠢的。這只是語義上的,他只是在,語義上吹毛求疵,還是你認為這兩件事實際上比看起來更相似?Mark Chen: 我的確認為研究人員,他們不只適合一種類型。我們在OpenAI有一些研究人員非常有生產力,他們非常擅長產生想法,而且,他們不一定需要透過實施他們所有的想法來展示巨大的影響力,我認為他們僅僅在提出「我們試試這個」或「我們試試這個」方面就產生瞭如此多的價值。或者也許我們正在考慮那個。而且還有其他的研究人員,他們非常非常擅長,抓住一個想法,嚴格地探索,圍繞著這個想法的實驗空間。所以研究人員有很多不同的類型。也許第一種類型不一定能歸類到偉大的工程師這一類,但是,我們確實試圖擁有相當多樣化的,研究品味和風格。Anjney: 請稍微談談,要創造一種前沿的、制勝的文化,能夠吸引各種各樣的研究人員,然後真正地培養他們,讓他們茁壯成長,讓他們大規模地一起獲勝,需要具備哪些條件。你認為,一個制勝文化最重要的要素是什麼?Mark Chen: 所以,我認為實際上最重要的是確保你保護基礎研究,我認為如今你可能會進入這樣一個世界,許多不同的公司都在考慮,我如何在聊天產品或其他某種產品介面上競爭,而且,你需要確保你留下空間,並認識到研究的本質。並且也要給他們做研究的空間,例如你不能讓他們被拉向所有這些不同的產品方向。所以我認為這是我們在我們的文化中關注的一件事。Jakub: 尤其現在,開放人工智慧備受矚目,人工智慧整體備受矚目,以及不同實驗室之間的競爭。很容易陷入一種心態,例如,我們正在競相擊敗最新的版本之類的。而且,肯定有一些領域,人們開始回頭看,開始思考,這些其他的東西是什麼?而且,在很大程度上,我們的工作是確保人們有這種舒適感和空間去思考,一年或兩年後事情實際上會是什麼樣子?就像我們真正想要回答的重大的研究問題是什麼,以及我們如何才能得到像現在這樣遠遠超過我們所見過的模型,而不僅僅是在當前的範式中迭代改進?平衡研究與產品Sara Wang: 為了進一步探討保育基礎研究這個主題。你們顯然是世界上最好的研究機構之一,但你們也是世界上最好的產品公司之一。你們如何平衡這兩者,特別是,你們也引進了一些世界上最好的產品主管。你們如何在兩者之間平衡這種關注,並在保護基礎研究的同時,繼續推進你們現有的優秀產品?Jakub:Mark Chen: 我認為這在於劃分出一批真正關心產品,並且真正願意對產品的成功負責的研究人員。而且,而且他們當然應該與更廣泛的研究工作緊密協調。但我認為只是讓人們理解他們的任務和他們因什麼而得到獎勵,那是件非常重要的事情。Jakub: 我認為另一個有幫助的事情是,我們的產品團隊以及更廣泛的公司領導層都認可這個願景,我們研究的發展方向。所以,沒有人會認為,例如,我們現在擁有的產品將是我們永遠擁有的產品。我們只需等待,例如,來自研究的新版本。就我們能夠共同思考未來的樣子。Anjney: 你們所做的一件事是讓如此多樣化的不同想法和賭注在OpenAI內部蓬勃發展,然後你們作為研究領導者必須想出某種方法,使這一切作為一個路線圖的一部分,具有連貫的意義。而且你們有,這邊的人在研究擴散模型和視覺媒體的未來。在這裡,你們會看到有人在研究程式碼推理的未來。你如何描繪出一幅連貫的圖像?這所有的一切是如何結合在一起的?當,當至少表面上,在給予研究人員獨立性進行基礎研究,以及以某種方式將所有研究納入一個當前的研究項目之間,可能存在某種緊張關係時。Jakub: 我們的研究計畫的目標狀態,幾年來一直是實現一個自動化的研究者。所以我們一直在,我們一直在,以這個目標為中心建立莫札特計畫。所以這仍然為,各種領域的基礎研究的自下而上的想法產生留下了很大的空間。但是,我們一直在思考這些想法最終將如何結合在一起。我們,我們相信例如,推理模型可以走得更遠,並且我們對一些與推理模型沒有直接關係的事情進行了大量的探索,但我們一直在思考它們最終將如何結合,以及一旦你擁有一個能夠思考難題的工具,它將是什麼樣子,這種創新將會是什麼樣子。所以這種對我們長期目標的清晰認知非常重要。但是,但這並不意味著我們對諸如「這裡是所有的小碎片」之類的東西具有規定性,就像我們絕對將此視為一個關於探索和學習這些技術的問題。Mark Chen: 我認為你希望在非常基礎的層面上具有主見和規定性,但是很多想法會湧現出來,然後找到我們的層面。Anjney: 最近有沒有出現過這些事情之間存在矛盾的時刻?一個啟發性的例子可能是最近,Google推出了這個新的圖像模型,也就是奈米香蕉(Nano Banana)。它展現了非凡的價值。例如,很多一般人,當這些模型擅長理解編輯提示時,就可以釋放大量的創造力。而且,我可以看到這會給一個可能沒有直接優先考慮該問題的研究項目帶來一些壓力。如果,如果你團隊中某個有才華的人過來跟你說,夥計們,像這樣的東西在外在世界顯然非常有價值。我們應該投入更多的精力在這上面。你如何推理這個問題?Jakub: 我認為在OpenAI,這絕對是我們已經思考了很長一段時間的問題。如果你看看GPT-3,對吧,就一旦我們看到,這大概是語言模型的發展方向,我們肯定進行了很多討論,顯然你可以用人工智慧做很多神奇的事情,對吧。而且你將,你將能夠接觸到這種,這種極其聰明的模型,它們,正在推動不同層級的科學發展,但你也將擁有這種令人難以置信的媒體生成能力,以及這種令人難以置信的,變革性的,娛樂應用。所以,我們如何在所有這些方向中確定優先順序?這絕對是我們已經,已經思考了很長一段時間的事情。Mark Chen: 當然。而且,真正的答案是,我們不會阻止某人對那件事感到非常興奮。而且,如果我們在優先排序上和我們的產品策略上保持一致,那麼它自然會水到渠成。所以對我們來說,我們確實鼓勵很多人對,建構這種,或建立像智慧體產品之類的產品感到興奮,無論他們對哪種產品感到興奮。但對我們來說,擁有一個獨立團隊也很重要,你要保護他們,他們的目標是創造演算法進步。資源組態與不變的約束Jakub: 進一步補充安雅的問題,這如何轉化為圍繞資源組態的具體框架?Sara Wang: 例如,你會考慮,X%的計算資源將用於長期,非常重要,但也可能有點不切實際的探索,而另一方面,顯然還有當前的產品推理,以及介於兩者之間的,在短期到中期可以實現的。Mark Chen: 所以我認為這是我們雙方工作的重要組成部分,只是這個投資組合管理問題,即你將多少計算資源分配給哪個項目?而且,我認為從歷史上看,我們更關注核心演算法的進步,而不是產品研究。但這是一個你必須隨著時間的推移去感受的事情,這是動態的。我認為每個月都可能有不同的需求。所以我認為保持相當的靈活性很重要。Sara Wang: 如果你再有10%的資源,你會把它投入到運算方面,還是投入到資料管理人員方面?你會把它從像邊緣的位置插入到哪裡?Mark Chen: 好問題。我想,是今天的計算。我的確認為這與你提出的關於優先順序的問題有關,就像在真空環境中,你希望在任何這些事情上都表現出色並獲勝。我認為危險在於你最終在所有事情上都名列第二,而且,不在任何事情上都明顯領先。所以我認為優先排序很重要,你需要確保你對某些事情有清晰的認識。這就是我們需要贏得的事情。Anjney: 但我認為再多談一點是有意義的,即計算集在某種程度上很大程度上決定了命運,在像OpenAI這樣的研究機構。幾年前,我認為開始流行這樣說,好吧,我們很快就不會受到計算的限制了,因為有一堆CMs(計算市場)正在被發現,我們將變得更有效率,所有的演算法都會變得更好。然後最終,我們真的會處於資料受限的狀態。看起來,幾年過去了,我們仍然處於這種非常受運算限制的環境。你認為這種情況會很快改變嗎?Jakub: 我認為我們已經看到了足夠長的時間,我們可以用計算做多少事情。我並沒有太相信「我們將受到數據限制」的說法。我不希望這種情況改變。Mark Chen: 任何說那種話的人都應該來我的崗位上乾一週。沒有人會說,我擁有我需要的所有運算能力。對。Anjney: 從歷史上看,推進基礎研究的工作在很大程度上一直是大學的職責。部分原因是你剛才描述的計算原因,但對於前沿人工智慧來說,情況並非如此。你們在引導前沿人工智慧進步的軌跡以幫助科學方面做得非常出色。我想知道當這兩個世界碰撞時,即當今大學研究的基礎世界和前沿人工智慧的世界,會產生什麼?Mark Chen: 所以我想我個人是從OpenAI 的住院研究員開始的,這是一個我們為不同領域的人設立的項目,讓他們進來,快速學習人工智慧,並成為一名高效的研究人員。我認為那個專案有很多非常強大的要素。而且,這個想法就我們能否在盡可能短的時間內加速類似博士學位的進程?Jakub: 我認為其中很多看起來就像是實現了很多,非常核心的結果。Mark Chen: 而且,透過這樣做,你將會犯錯。你會想,哇,要建立直覺,如果把這個設定錯了,那將會以這種方式摧毀我的網路。所以你只需要大量的實務經驗。我認為隨著時間的推移,可能所有這些大型實驗室都開發了關於最佳化、架構和強化學習的課程,而且,可能沒有比嘗試實施這些東西、閱讀它們並批判性地思考它們更好的方法了。Jakub: 我認為你在學術界能體驗到的另一件好事是,就是堅持,例如,你有幾年時間,你試圖解決一個問題,而這是一個難題。而且你以前從未處理過如此棘手的問題。而且,我確實覺得這是一件事,目前進展的速度非常快。也許這些想法也比過去更容易實現。因為,深度學習只想學習。短暫地接觸一個更具挑戰性的問題,或許,成為一個團隊的一員,攻克一個雄心勃勃的挑戰,並且,感受到那種,被困住的感覺,以及最終取得進展的感覺,我認為這也是非常值得學習的東西。Sara Wang: 對特定產品發佈的外部感知和接受程度如何影響您對某些事情的優先順序?它是否達到了這樣的程度,感知和使用(如果它們結合在一起),顯然可能有一個明確的指令,但在它們可能有些分離的情況下,這是否會影響您對路線圖的看法或您強調資源的地方?Jakub: 所以,我們通常對未來有一些非常堅定的信念。因此,我們不會將它們與我們產品的短期接受度緊密聯絡起來,當然,我們確實會根據正在發生的事情來學習。我們,閱讀其他論文,並且我們,我們,我們關注其他實驗室在研究什麼。但是,總的來說,我們,我們是從一個對我們所建構的東西有著相當堅定信念的地方出發的。所以,當然,那是對於我們的長期研究項目而言的,當然,當涉及到產品時,就就像這個,這個,這個迭代的週期要快得多。Sara Wang:Mark Chen: 每次發佈,我們都試圖將其定位為在產品方面非常成功的東西。Jakub: 而且,我認為從基礎研究的角度來看,我們正在努力建立具有建構非常豐富的一系列體驗和產品所需的所有核心能力的模型。Mark Chen: 而且,將會有人對他們可以建立的某個特定事物有一些願景,而且,我們會發佈它。我們發佈的每件事,我們都真誠地希望它能獲得巨大的成功,而且,我們會得到回饋。如果它不是那樣,那好吧,稍微調整一下我們的產品策略,但是我們絕對也在從事推出非常有用、非常成功的產品。Anjney: 感覺上,由於我們剛才花了很多時間討論的那種完全不受約束的進步速度,未來幾年將會發生很多變化,這真的很難預測。我想像10年後的情況,更不用說,10個月後的情況了。那麼我的問題,我想,是透過人工智慧前沿將帶來的所有變化,你認為有哪些先驗知識實際上應該保持不變?有什麼嗎?很明顯,我們沒有足夠的算力。你認為還有什麼不會改變,而且你認為作為常數,是應該合理堅持的強先驗知識?Jakub: 我認為比算力更廣泛的是物理約束,例如能源,而且在不遠的將來,機器人技術將成為一個主要焦點。所以,思考物理約束將仍然很重要。但是,我確實認為在智能方面,我不會做太多的假設。結語:信任與持續的驅動力Sara Wang: 很少有新創公司能夠達到你們的規模,無論是從員工角度,還是從收入計數來看,並且保持你們可能擁有的那種極速,在你們加入的七、八年前。這樣做的秘訣是什麼?即使你們現在已經處於頂峰,你們如何繼續保持這種壓力,幾乎以儘可能快的速度交付產品?Mark Chen: 至少在我看來,我們擁有真正優秀的科研文化最明確的標誌之一是,我以前在不同的公司工作過,確實存在一種現象,那就是學習高原期,你去一家公司,你在最初的一兩年裡學到很多東西,然後你就會發現有點我知道如何在這個框架內相當高效地工作,而且我的學習也停止了。我在OpenAI從未有過這種感覺,就像你描述的那種所有這些非常酷的結果不斷湧現的體驗一樣。你每週都在學到很多。而且,要掌握所有這些資訊,需要花費大量時間。這非常令人滿足。所以,不,我認為這是一個非常準確的描述。我們只是想產生大量真正高品質的研究。這幾乎是一件好事。就像如果你產生的研究成果多到你幾乎無法掌握它們一樣。Sara Wang: 完全正確。Jakub: 我認為技術的發展絕對是一種驅動力,也許,也許我們在特定的範式中工作幾年後會變得舒適,但我們總是站在新事物的風口浪尖上,並且,試圖圍繞我們將要面臨的那種新的約束和新的可能性來重新組態我們的思維。所以我認為這創造了一種不斷變化的感覺,以及總是學習新事物的思維模式。Anjney: 在我們的研究中,關於OpenAI的一些在很多變化中沒有改變的事情是,你們兩個人彼此之間的信任。因為,我想最近在《麻省理工科技評論》上有一篇關於你們的文章或簡介。這也是一個突出的主題,你們的化學反應、你們彼此的信任、你們的融洽關係是OpenAI的許多人已經開始將其視為一種常態的東西。那麼背景故事是什麼呢?你們是如何建立信任的?那是怎麼發生的?這就像問,你們看過那部電影嗎? 《當哈利遇見莎莉》。我感覺你好像在沙發上。現在你必須了。Mark Chen: 我的確認為,當我們開始著手推理的最初萌芽時,我們開始更緊密地合作。我們當時,那並不是一個很受歡迎的研究方向。而且我認為我們都看到了其中的希望,我們都在朝著這個方向努力,試圖弄清楚如何讓強化學習(RL)發揮作用。我認為隨著時間的推移,我們把一個非常小的努力逐漸擴大為更大的努力。而且,我認為這就是真正開始與雅各深入合作的地方。我認為他真的是一位傑出的研究員。任何這些排名榜單,他都應該排在第一位,就像他有能力,應對任何非常困難的技術挑戰,並且幾乎像個人一樣思考兩個星期就能解決它。他在理解方面的廣度和深度令人難以置信,他可以深入研究並親自解決許多這些技術挑戰。現在你得說些關於他的好話了。你不必說任何關於雅各的好話。謝謝你,馬克。Jakub: 我覺得,我覺得我們一起做的第一件大事是,我們開始看到,好吧,我們認為這個演算法會起作用。所以,我在想,好吧,我們該如何,引導人們參與這件事?我們和馬克談過,我們應該建立一個團隊,真正讓這件事成功。然後,馬克去做了這件事,就像實際上把一群人聚集在一起,讓他們從事非常不同的事情,把他們聚集在一起,從這個完全不同的群體中創造出一個具有令人難以置信的化學反應的團隊。這對我來說是件非常令人印象深刻的事。我真的很感激也很受鼓舞,我能,和馬克一起工作,並體驗到這一點。我認為這種不可思議的能力既能理解、參與,又能思考研究本身的技術問題。而且還具備卓越的領導和激勵團隊的能力,並能創造一個組織結構,在這種混亂的、無序的方向中,實際上是連貫的,並且能夠凝聚在一起。非常、非常鼓舞人心。太棒了。Sara Wang: 好,說到這裡。Anjney: 科學領域,尤其是在物理學領域,一些最偉大的發現往往來自一對合作者,他們通常跨越大學、跨越領域。看起來你們也加入了這個傳統。所以我們非常感謝你們抽出時間今天來聊天。謝謝你們的光臨。謝謝。Jakub: 謝謝。 (Web3天空之城)
OpenAI兩位首席最新採訪!終極目標是“自動化研究員”,招人並非尋找“最出圈”的人
OpenAI首席科學家Jakub Pachocki與首席研究長Mark Chen開啟同台爆料模式:氛圍編碼的下一步或許是氛圍研究(Vibe Researching);OpenAI的最終目標是實現自動化研究員;現有評估指標正趨近飽和,下一個里程碑將涉及實際的發現和在經濟相關事物上取得實際進展;成功的秘訣在於保護基礎研究,避免被短期產品競爭所牽制;……在a16z的這場最新訪談中,兩人不僅深入探討了GPT-5如何引入長遠推理、如何在基準飽和後衡量進度,以及為什麼強化學習不斷讓懷疑論者感到驚訝,還係統闡述了OpenAI的用人標準、未來路線圖以及算力分配這些重要問題。一句話,凡是你對OpenAI感到好奇的問題,他倆幾乎都談到了~(網友1):深入又有趣!(網友2):聽起來像是一支有著清晰願景的強大團隊。話不多說,訪談重點這奉上——GPT-5:將推理與Agentic行為引入主流採訪第一趴主要關於GPT-5。Mark Chen表示,GPT-5是OpenAI試圖將推理能力帶入主流的一種嘗試。在此之前,公司有GPT系列(主打即時響應)和o系列(主打推理)兩類模型。從策略上講,他們不希望使用者被「我應該使用那種模式」所困擾,所以把未來重心放在了越來越多的推理和Agents上。我們認為,GPT-5是朝著默認提供推理和更多Agentic行為的一步。他還一再強調,雖然比起o3和以前的其他模型,GPT-5在很多方面都有改進,但這款模型最主要的意義還是在於將推理模式帶給更多人。緊接著,主持人又問到了評估趨於飽和的問題,對此Jakub Pachocki也做了一番回答。他一開口就直接承認,我們過去幾年一直使用的這些評估確實已經非常接近飽和。具體而言,早期(從GPT-2到GPT-4)的訓練依賴大規模預訓練資料,並通過評估測試模型的泛化能力;但如今隨著針對嚴肅推理的強化學習出現,可以讓模型在特定領域深度訓練成專家,從而在某些評估中表現突出(卻不一定具備良好泛化性)。因此,目前缺乏更合適的評估體系。他表示,未來OpenAI將重點關注模型是否能夠發現新事物,並在具有經濟相關性的領域中取得實際進展。OpenAI的宏大目標:實現自動化研究員順著發現新事物這個話題,兩人又分別回答了「在GPT-5發佈之前,那種能力最讓你感到驚訝?」這個問題。Mark Chen分享道,印象最深刻的是模型能夠推動非常困難的前沿科學研究。他曾經和一些物理學家、數學家朋友們共同體驗模型,結果大家發現模型能夠解答一些新的、非常複雜的問題。這對他們來說有點像靈光一閃的時刻,它能夠自動化解決可能需要他們的學生花費數月時間的工作。而Jakub Pachocki則表示,o3的出現真正讓他眼前一亮。尤其是在處理數學公式或推理時,它確實達到了一個“相當值得信賴”的水平。至於未來,Jakub透露OpenAI的一個大目標是培養一個自動化研究員,而這個研究員可以自動發現新想法。初步想法是,先自動化自家內部的研究工作,然後再考慮自動化其他科學領域的進展。並且他提到了一個衡量這方面進展的「好方法」——觀察這些模型實際上可以進行推理和取得進展的時間跨度。隨著我們達到近乎精通高中競賽的水平,現在的推理水平達到了大約1~5小時。接下來OpenAI會專注於延長這個時間跨度,無論是在模型的長期規劃能力方面,還是在維持記憶方面。對此Mark Chen也call back了一下評估的問題:這就是為什麼我們對衡量模型自主執行階段間長度的評估很感興趣的原因。強化學習遠未達到瓶頸,“不要將當下的狀態視為終局”接下來話題跳轉到強化學習(RL)。每當OpenAI發布模型新版本之後,很多人都會懷疑強化學習會達到瓶頸,但不知何故,RL依舊「生命力頑強」。所以,為什麼RL運作得如此出色? RL有什麼讓人感到驚訝的地方嗎?面對這一連串提問,Jakub Pachocki首先解釋了RL能運作良好的幾點原因:RL的通用性和強大性:RL本身是一種非常通用的方法,它是一個極其強大的東西,建立在深度學習這一「令人難以置信的通用學習方法」之上。一旦RL系統開始運作,研究人員就可以探索很多想法。錨定現實世界:長期以來,OpenAI努力解決的問題是如何將這些模型錨定到現實世界,即「環境是什麼」。與語言模型的結合:語言模型突破的出現是關鍵轉折點。通過擴展深度學習來建模自然語言,OpenAI能夠建立出對人類語言具有「令人難以置信的細微理解」的模型。Jakub Pachocki認為,過去幾年是OpenAI研究中最令人興奮的時期,因為他們發現瞭如此多的新方向和有希望的想法,而這些想法似乎都在奏效。在談到獎勵模型(Reward Model)時,他預計獎勵模型的發展速度會非常快,並且未來會變得更簡單,就像幾年前大家討論如何建立合適的微調資料集一樣。與此同時,他指出這一演變還遠未結束,OpenAI正在逐步向更接近人類學習的方向邁進,而當前的RL仍無法完全做到這一點。他特別強調,理解RL的關鍵思維模式是不要把當下的狀態視為終局,要保持靈活,因為相關的工具和方法論還會持續快速迭代和演變。氛圍編碼之後:氛圍研究對於當下大熱的AI程式設計,主持人也cue到了OpenAI本月發表的GPT-5-codex,這是一個專門針對程式設計進行優化的模型。Mark Chen表示,在這項工作上他們投入了大量精力來調整預設,以更好地匹配程式設計師對等待解決方案時間長度的預期。上一代程式設計模型的問題在於,花在解決最困難問題的時間太少,而花在解決簡單問題上的時間太多。並且為了測試模型能力,他們選擇了去參加程式設計競賽。Jakub Pachocki認為,程式設計競賽提供了一個很好的、封裝的測試,可以衡量模型在受限環境和時間範圍內提出新想法的能力。不過,Jakub自述作為一位歷史上極其不情願使用任何工具(甚至只使用Vim)的「老派」程式設計師,使用GPT-5最新的編碼工具讓他覺得「這不是(以前的)方式了」。他現在意識到,模型可以在15分鐘內幾乎完美地完成30個檔案的重構,因此「你必須使用它」。他形容這種新的編碼方式目前仍有點處於“恐怖谷”(uncanny valley)階段,因為它雖然解決了許多問題,但“仍然有點像……不如一個同事那麼好”,並表示OpenAI的首要任務是擺脫那個恐怖谷。而Mark Chen則將模型當前達到的水平和圍棋選手李世石面對AlphaGo時的經歷聯繫起來,他直言:從解決八年級數學問題到一年後在編碼競賽中達到他們自己的表現水平,這種進展是瘋狂的。他坦言,他們確實感受到了李世石所經歷的部分情緒,並思考這些模型「有什麼是它們做不到的」。Mark Chen觀察到,這種進步已經改變了編碼的默認方式。他引用最近與高中生的對話,指出現在的年輕人認為默認的編碼方式是「憑感覺編碼」(vibe coding),而自己從頭開始編寫所有編碼機制反而成為一個奇怪的概念。他最後總結道,氛圍編碼之後或許就是氛圍研究(vibe researching),也就是憑感覺研究。OpenAI招募:並非尋找「最出圈」的人具體回歸到人上,兩人也分享了他們最重視的研究特質。Jakub Pachocki認為,堅持是關鍵。研究的本質是探索未知,許多嘗試都會失敗,因此必須做好失敗和從失敗中學習的準備。同時,要有清晰的假設,並且對進展保持極度誠實,不能為了證明結果而自欺欺人。他強調,對自己的想法保持信心很重要,但更重要的是知道什麼時候它有效,什麼時候無效,從而調整方向。Mark Chen補充說,研究沒有捷徑,需要經驗來學習如何選擇合適的問題。問題太難容易受挫,太簡單又缺乏滿足感。研究過程常伴隨大量失敗,需要學習什麼時候堅持,什麼時候轉向。他指出,「趣味性」來自於閱讀好論文、交流和經驗積累。而關於如何留住人才,Mark Chen表示,OpenAI的優勢在於他們專注於基礎研究,而不是簡單地模仿競爭對手。他們有清晰的研究目標,創新氛圍鼓舞了研究員,同時公司也專注於文化建設和人才培養。Jakub則指出,他們尋找的不是最「出圈」的人,而是曾經解決過難題的人,具備紮實技術功底並願意迎難而上的人,那怕之前的領域不是深度學習。我們不會純粹尋找誰做了最引人注目的工作,或者誰在社交媒體上最引人注目(小扎:報我名得了~)。在團隊文化方面,Jakub強調要保護基礎研究,不要被產品競爭的節奏帶偏,研究員需要空間思考未來一兩年的重大問題。總之,OpenAI的長期目標是打造“自動化研究員”,因此不同研究方向會圍繞這一目標逐漸融合。以Mark Chen的話來說就是,粗線條上需要規定方向,但細節保持開放。如果有10%的額外資源,會投向計算如果你有10%的額外資源,你會把它投入到計算、資料整理還是人員方面?面對最後一個關鍵問題,Mark Chen明確表示,計算資源是合理答案。(笑)沒有研究人員會覺得自己有足夠的算力。Jakub補充說,必須明確優先順序,否則可能在所有方向都只能做第二名。他強調計算仍是決定性因素,幾年前大家認為會轉向“數據受限”,但事實證明今天依舊處在強烈的計算限制下。在算力有限的情況下,如今所有主流廠商幾乎都會面臨產品發表和研究那一個優先的問題。對此,Jakub強調OpenAI的研究路線主要基於長期信念,而非短期市場回饋。並且當談到未來那些先驗會保持不變,他認為除了計算,還要考慮能源等物理約束。他預測機器人技術會在不久的將來成為主要焦點。Okk,至此訪談內容告一段落,你怎麼看二人提到的上述觀點? (量子位元)